Para los científicos de datos, el trabajo pesado sigue siendo el trabajo n. ° 1

Las molestias de la ingesta y la limpieza de datos, los problemas con los modelos sesgados y la privacidad de los datos, y la dificultad para encontrar experiencia y habilidades técnicas, todo esto se clasificó entre los mayores desafíos que enfrentan los científicos de datos y los ingenieros de software en las disciplinas de ciencia de datos según una encuesta recientemente publicada.

Anaconda, creadores de la Distribución de Python del mismo nombre. para aplicaciones informáticas científicas, realizó su Encuesta 2020 sobre el estado de la ciencia de datos con 2,360 encuestados de 100 países, un poco menos de la mitad de los que provienen de los EE. UU.

A pesar de todos los avances en los últimos años en entornos de trabajo de ciencia de datos, el trabajo pesado de datos sigue siendo una parte importante de la jornada laboral del científico de datos. Según las estimaciones autoinformadas por los encuestados, la carga y limpieza de datos ocuparon el 19% y el 26% de su tiempo, respectivamente, casi la mitad del total. La selección del modelo, la capacitación / puntuación y el despliegue ocuparon aproximadamente el 34% del total (alrededor del 11% para cada una de esas tareas individualmente).

Cuando se trataba de llevar el trabajo de la ciencia de datos a la producción, el mayor obstáculo general, tanto para los científicos de datos, como para los desarrolladores y administradores de sistemas, era cumplir con los estándares de seguridad de TI para su organización. Al menos algo de eso está en línea con la dificultad de implementar cualquier aplicación nueva a escala, pero los ciclos de vida para el aprendizaje automático y las aplicaciones de ciencia de datos plantean sus propios desafíos, como mantener múltiples pilas de aplicaciones de código abierto parcheadas contra vulnerabilidades.

Otro tema citado por los encuestados fue la brecha entre las habilidades que se enseñan en las instituciones y las habilidades necesarias en entornos empresariales. La mayoría de las universidades ofrecen clases de estadística, teoría del aprendizaje automático y programación de Python, y la mayoría de los estudiantes se cargan en estos cursos. Pero las empresas se encuentran más necesitadas de habilidades de gestión de datos que se enseñan raramente o nada, y habilidades matemáticas avanzadas que los estudiantes no suelen desarrollar. Los propios estudiantes sintieron que la falta de experiencia (40%) y las habilidades técnicas (26%) eran las mayores barreras para los trabajos en el campo, deficiencias que (según Anaconda) podrían abordarse mejor con programas de pasantías fuertes que «van más allá de proporcionar una mejora del currículum vitae y habilidades técnicas prácticas en el teclado «.

Un hallazgo en el informe no debería sorprender a nadie: Python sigue siendo el rey de los lenguajes utilizados en el espacio de la ciencia de datos. R viene en un distante segundo lugar, mientras que JavaScript, Java, C / C ++ y C # se encuentran detrás. A pesar de que Julia, una contendiente en ascenso en el mundo de la ciencia de datos, no figuraba en la lista, no está claro si eso se debió a que no figuraba en las respuestas suficientes de los encuestados o porque la encuesta no lo mencionó.

Copyright © 2020 IDG Communications, Inc.

Source link

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *