La estadística descriptiva es el primer paso fundamental en cualquier análisis de datos. Nos permite organizar, resumir y visualizar la información para entender su estructura antes de aplicar modelos más complejos.
12.1 Limitaciones de la estadística descriptiva
- No permite inferencias: describe los datos observados, pero no garantiza conclusiones sobre la población completa.
- Sensibilidad a outliers: algunas medidas (como la media y la varianza) pueden distorsionarse con valores extremos.
- No muestra causalidad: una correlación alta no implica que una variable cause la otra.
- Visión parcial: reduce los datos a resúmenes; podemos perder matices importantes.
👉 Ejemplo: saber que la media de edad es 35 años no dice nada sobre cómo están distribuidas esas edades.
12.2 Relación con la estadística inferencial y el machine learning
Estadística inferencial:
- Se basa en muestreo y probabilidad.
- Permite estimar parámetros de la población (media, proporción, etc.) a partir de la muestra.
- Usa intervalos de confianza y tests de hipótesis.
Machine Learning:
- Toma conceptos de estadística descriptiva (normalización, correlaciones, distribuciones) como preprocesamiento de datos.
- Detectar outliers, escalas distintas y relaciones entre variables es esencial antes de entrenar un modelo.
- Ejemplo: en regresión lineal, la correlación entre variables es clave; en clustering, la dispersión y las distancias influyen directamente.
👉 En resumen: la estadística descriptiva prepara el terreno para inferir, modelar y predecir.
12.3 Recursos adicionales para profundizar
Cursos gratuitos en línea
Documentación oficial
12.4 Cierre
Con lo visto en este tutorial aprendiste a:
- Calcular y entender medidas de tendencia central, dispersión, posición, asimetría y curtosis.
- Usar Pandas, NumPy, SciPy, Matplotlib y Seaborn para aplicar estadística descriptiva en Python.
- Visualizar distribuciones y relaciones entre variables con histogramas, boxplots, pairplots, scatterplots y heatmaps.
👉 Próximos pasos:
- Practicar con datasets reales (ventas, encuestas, datos abiertos).
- Avanzar hacia estadística inferencial (tests de hipótesis, intervalos de confianza).
- Introducirse en machine learning (regresión, clasificación, clustering), usando la estadística descriptiva como base sólida.