1. ¿Qué es la Ciencia de Datos?

1.1 Definición

La ciencia de datos es la disciplina que combina programación, estadística y conocimiento del dominio para extraer valor accionable a partir de datos. Integra todo el ciclo: desde recolectar y limpiar datos, analizarlos de forma exploratoria, construir modelos que expliquen o predigan, hasta comunicar resultados para tomar decisiones.

Integra herramientas como Python, R, Pandas, scikit-learn y XGBoost para experimentar con datos y llevar soluciones a producción.

En una frase: convertir datos en decisiones medibles.

1.2 Objetivos del ciclo analítico

  • Describir: entender qué ocurrió (métricas, tendencias, segmentos).
  • Diagnosticar: explicar por qué ocurrió (correlaciones, factores causales plausibles).
  • Predecir: estimar qué puede ocurrir (modelos supervisados).
  • Prescribir: recomendar qué hacer (optimización, simulación, reglas de decisión).
  • Monitorear: seguir el desempeño y detectar desvíos (tableros, alertas).
  • Mejorar: cerrar el ciclo con experimentación (A/B testing, iteración del modelo).

Resultados esperables: insights claros (gráficos, historias de datos), modelos con métricas cuantificadas (RMSE: raíz del error cuadrático medio, F1: balance precisión/recuperación, AUC: área bajo la curva ROC) y decisiones implementables (políticas, umbrales, presupuestos) que operan mediante APIs o tableros.

1.3 Principios prácticos

  • Trazabilidad: cada resultado debe poder reproducirse.
  • Simplicidad primero: priorizar soluciones explicables y baratas antes que complejas.
  • Calidad de datos sobre complejidad de modelo: datos limpios permiten modelos robustos.
  • Ética: privacidad, sesgos, impacto social y transparencia.

1.4 Diferencia entre Ciencia de Datos, Machine Learning e Inteligencia Artificial

Aspecto Ciencia de Datos (DS) Machine Learning (ML) Inteligencia Artificial (IA)
Propósito Extraer valor y contar una historia con datos para decidir. Aprender patrones a partir de datos para predecir o clasificar. Lograr conductas inteligentes (percepción, razonamiento, acción).
Salida típica Informe, dashboard, experimento, modelo + recomendación. Modelo entrenado con métricas y umbrales de decisión. Sistema que percibe, planifica y actúa (por ejemplo, asistente, agente, robot).
Alcance De punta a punta: recolección, limpieza, EDA, modelado, comunicación y despliegue. Subconjunto: el algoritmo y su entrenamiento/validación. Conjunto amplio que puede usar ML (no siempre), reglas, búsqueda, planificación.
Herramientas Python/R, SQL, Pandas, visualización, estadística aplicada, ML, experimentación. scikit-learn, XGBoost, redes neuronales, evaluación y tuning. Planificadores, visión por computadora, NLP, RL, sistemas expertos, LLMs.
Ejemplos Segmentar clientes, explicar caída de ventas, medir impacto de una campaña. Predecir churn (anticipar bajas de clientes), detectar fraude, clasificar imágenes. Conducir un vehículo autónomo, jugar Go, asistentes de lenguaje.

Relación entre los términos: ML es una pieza dentro de la ciencia de datos (no siempre necesaria: hay proyectos 100 % analíticos). IA es un paraguas más amplio; ML es una forma moderna de construir IA; no toda IA usa ML. Un proyecto de DS puede terminar en un análisis, un modelo ML operativo o un sistema IA que integra ML con otras capacidades.

1.5 ¿Cuándo usar cada enfoque?

  • Solo análisis/estadística (DS sin ML, ciencia de datos sin modelos de aprendizaje automático): cuando se busca describir o explicar con métricas e hipótesis (ejemplo: entender drivers de costos).
  • ML clásico: cuando se necesita predecir con datos históricos etiquetados (demanda, precios, probabilidad de impago).
  • IA más amplia: cuando el sistema debe percibir, razonar y actuar en entornos complejos (chatbots avanzados, visión computacional con control).

1.6 Preguntas guía para iniciar un proyecto

  • Problema de negocio: ¿qué decisión cambiaría con datos?
  • Variable objetivo: ¿qué queremos medir o predecir?
  • Datos disponibles: fuentes, volumen, calidad, sesgos y permisos.
  • Éxito: ¿qué métrica moveremos? (ejemplo: +3 % conversión, 15 % fraude).
  • Restricciones: latencia, costo, interpretabilidad, cumplimiento legal.
  • Entrega: dashboard, reporte, API, alerta o experimento controlado.

1.7 Errores comunes

  • Empezar por el modelo sin definir el problema.
  • Sobreajuste por falta de validación o fuga de información.
  • Métricas no alineadas al negocio (optimizar AUC cuando importa recall por fraude).
  • Ignorar datos faltantes o sesgos y no documentar su impacto.
  • No planificar despliegue y monitoreo (modelo demo que nunca llega a producción).

1.9 Mini-resumen para el alumno

DS = decisiones con datos (no solo modelos). ML = herramienta para predecir dentro de DS. IA = sistemas inteligentes; puede incluir ML. La calidad del dato y la pregunta correcta valen más que la arquitectura más compleja.