“La ciencia de datos existe, pero el científico de datos debe definirse mejor”.
Ciencia de Datos
Según Wiki: “La ciencia de datos es un área interdisciplinaria dirigida al estudio y análisis de datos económicos, financieros y sociales estructurados y no estructurados. Su objetivo es extraer conocimiento, detectar patrones para obtener “insights” para la toma de decisiones”. Es una definición interesante, pero podría aplicarse a otras áreas, como “analítica y BI”.
Lo que mejor caracteriza a la ciencia de datos, además de lo ya comentado, es que trata problemas a partir de conocimientos más profundos de estadística, matemáticas y algoritmos más sofisticados construidos en lenguajes específicos, como Python y R, y mediante conexiones con inteligencia artificial, “machine learning” y otros.
Hay quienes aún incluyen componentes como: conocimiento del negocio, gestión de proyectos y amplio dominio sobre otros recursos de TI.
La definición de que “es un área interdisciplinaria” deja muy claro que Ciencia de Datos es una intersección de varios conocimientos provenientes de diferentes áreas.
Científico de Datos
Una definición de un "científico de datos" es: "los expertos analíticos con habilidades para resolver problemas complejos son en parte matemáticos y estadísticos y en parte profesionales de la informática y en parte observadores de tendencias".
Obsérvese el “en parte”, ya que es muy raro encontrar profesionales que logren ser, simultáneamente, “expertos” en muchas áreas del conocimiento.
Según SAS, no existe una descripción definitiva del trabajo de un científico de datos, pero puede entenderse parcialmente por el conocimiento y las tecnologías que necesita usar, entre otros:
- Machine Learning L – Aprendizaje Automático;
- Deep Learning - Aprendizaje profundo
- Reconocimiento de Patrones;
- Análisis de Texto;
- Inteligencia Artificial;
- Estadísticas.
Consideraciones
La Ciencia de Datos es interdisciplinar y el desarrollo de los proyectos debe ser realizado por un grupo de expertos en las distintas disciplinas aplicables al caso en sí. En cualquier caso, el uso de la estadística/matemática y la analítica avanzada siempre están presentes.
La denominación de “científico de datos” se puede aplicar a quienes tienen una sólida base en alguna de las especialidades mencionadas y un buen conocimiento estructural y sistémico de las demás disciplinas.
Pero incluso en este caso, rara vez podrá actuar de forma aislada y necesitará el apoyo de otros especialistas.
Estas consideraciones no incluyen conocimiento de verticales de negocio, gestión de proyectos y otros temas menos tecnológicos.
Si incluimos estos elementos es prácticamente imposible encontrar un ser humano con tantas habilidades y aun así “hablar al menos cuatro idiomas y quizás tocar y llevar el piano”.
Aquí hay un caso real de los requisitos necesarios para llenar una vacante de "científico de datos":
Educación: superior, preferiblemente maestría o doctorado en ciencias exactas;
Tecnologías: bases de datos, nube, modelado de datos, ETL y ELT, lenguajes Python y R, otros lenguajes deseables, herramientas de visualización, “ML”, “Big Data”, “IA”, etc.;
Negocios: gestión ágil de proyectos, “praxeología*, planificación estratégica, BSC u OKR, marketing, análisis de procesos de toma de decisiones, control de gestión; y
Estadística y Matemáticas: conocimientos avanzados.
¿Que tal? Sin mencionar la buena comunicación, español, inglés, habilidades de relación, etc. Detalles: no se especificó el salario y “praxeología”-proviene del griego “praxis” y es una metodología que trata de explicar la estructura lógica de la acción humana.
Algunas Conclusiones
El sentido común y la propia experiencia indican que el camino a seguir es formar equipos con profesionales de distintas áreas (sin perder el foco en sus actividades principales) y contratar especialistas (nuevos empleados o terceros), para suplir los vacíos de conocimiento técnico o experiencia. De hecho, los terceros pueden jugar papeles importantes formando equipos que requieren, al menos temporalmente, conocimientos específicos, ya sea en asesoría o consultoría. Los estadísticos y los matemáticos, por ejemplo, a menudo pueden encajar como asesores y consultores.
También, simultáneamente, la formación gradual de una cultura analítica que permee a las organizaciones es fundamental, sin ella, los proyectos de ciencia de datos seguramente no tendrán resultados razonables y, quizás, ni siquiera patrocinadores. En el lenguaje tecnológico esto se llama “literacy” y “leverage”, traduciéndose: aculturación de datos y difusión del conocimiento. Sin duda, habrá resultados más positivos desarrollando el conocimiento de los empleados que simplemente contratar "científicos para explorar big data".
Además, como casi todo en la vida, la sofisticación debe ir precedida de lo fundamental, en lo que se basan. Es decir, no intente proyectos de ciencia de datos si no hay datos calificados y objetivos claros. Antes de estos proyectos, la organización ya debe haber realizado las lecciones relacionadas con las etapas básicas de análisis.
Sin duda, hay grandes oportunidades en la ciencia de datos para estadísticas, matemáticas, psicología, antropología, ciencias sociales, gestión, marketing, economía, informática y más. Es importante que este conocimiento se agregue sinérgicamente para apoyar, verdaderamente, a las organizaciones públicas y privadas.
Pero para que la “ciencia de datos” no sea solo una explosión sino una fuerza impulsora, es necesario entenderla y hacerlo bien. La inteligencia humana, efectiva y éticamente aplicada y transformada en “inteligencia organizacional” es fundamental para explorar el potencial que ofrecen las ciencias de datos y sus especialistas.
Rodrigo Hermosilla y Hermes Freitas
Comentários