2.1 Definición del rol
Un científico de datos es el profesional que extrae conocimiento útil y accionable a partir de datos. Su trabajo va mucho más allá de programar modelos: formula preguntas correctas, limpia y organiza información, aplica métodos estadísticos y de machine learning, y comunica hallazgos para traducirlos en decisiones dentro de empresas, instituciones o proyectos de investigación.
En otras palabras, actúa como puente entre los datos brutos y la toma de decisiones estratégicas basadas en evidencia.
2.2 Habilidades necesarias
El rol combina varias competencias, clásicamente resumidas en el triángulo del científico de datos:
🔹 Programación
🔹 Estadística y matemáticas
- Fundamentos de probabilidad y distribuciones estadísticas.
- Medidas descriptivas (media, varianza, correlaciones).
- Inferencia estadística: pruebas de hipótesis e intervalos de confianza.
- Bases de álgebra lineal y cálculo aplicado a modelos matemáticos.
- Conceptos de aprendizaje supervisado y no supervisado.
🔹 Comunicación y negocio
- Traducir resultados técnicos a un lenguaje comprensible para tomadores de decisiones.
- Elaboración de reportes claros y tableros visuales.
- Habilidad para contar historias con datos (data storytelling).
- Comprender el dominio (marketing, salud, finanzas, educación, entre otros) para formular hipótesis relevantes.
2.3 Flujo de trabajo típico en proyectos de datos
Aunque cada proyecto es único, la mayoría de los científicos de datos siguen un proceso iterativo parecido al siguiente:
Definición del problema
- ¿Qué pregunta queremos responder?
- ¿Qué decisión se tomará con los resultados?
- Ejemplo: ¿qué clientes tienen mayor probabilidad de abandonar el servicio en los próximos tres meses?
Recolección de datos
- Fuentes internas: bases de clientes, transacciones, sensores.
- Fuentes externas: APIs, conjuntos públicos, capturas mediante scraping.
- Evaluación inicial de volumen, variedad y veracidad de los datos.
Limpieza y preparación
- Tratamiento de valores faltantes, duplicados o inconsistentes.
- Transformación de variables (normalización, escalado).
- Feature engineering: creación de atributos relevantes para el modelo.
Análisis exploratorio de datos (EDA)
- Cálculo de estadísticas descriptivas.
- Visualización de patrones, correlaciones y valores atípicos.
- Identificación de hipótesis a investigar en profundidad.
Modelado
- Selección de algoritmos (regresión, clasificación, clustering).
- Entrenamiento con datos históricos.
- Evaluación con métricas (accuracy, RMSE, AUC, entre otras).
- Optimización de hiperparámetros.
Validación y experimentación
- División en conjuntos de train, validation y test.
- Uso de validación cruzada.
- Experimentación controlada, por ejemplo mediante pruebas A/B.
Comunicación de resultados
- Reportes ejecutivos con hallazgos clave.
- Visualizaciones claras e idealmente interactivas.
- Historias con datos que conecten la pregunta inicial con la recomendación final.
Despliegue y monitoreo
- Implementar el modelo en un entorno productivo (API, dashboard, integración con sistemas).
- Monitorear el desempeño en el tiempo (concept drift, calidad de datos).
- Ajustar e iterar conforme aparezcan nuevos datos o cambios en el negocio.
2.4 Resumen práctico
- Un científico de datos no es solo un programador: combina código, estadística y comunicación.
- El éxito de un proyecto depende más de formular bien la pregunta y asegurar datos de calidad que de aplicar el algoritmo más complejo.
- El flujo de trabajo es iterativo y cíclico: cada avance genera nuevas preguntas y puede requerir volver a fases anteriores.