En la inferencia estadística, no podemos simplemente decir que la media de nuestra muestra es "diferente" a un valor hipotético. Necesitamos saber si es significativamente diferente. Pero, ¿cómo medimos la "significancia"?
Aquí es donde entran las distribuciones de referencia. Piensa en ellas como mapas teóricos o reglas estandarizadas. Cuando realizamos una prueba, calculamos un "estadístico de prueba" (como un valor t o un valor χ²). Luego, comparamos nuestro estadístico con su distribución de referencia correspondiente para responder a la pregunta clave:
"Si la hipótesis nula fuera cierta (es decir, si no hubiera un efecto real), ¿cuán probable sería obtener un estadístico de prueba como el que hemos obtenido, o incluso más extremo?"
Estas distribuciones nos dan la probabilidad (el p-value) y nos permiten tomar una decisión informada. En este tema, exploraremos las cuatro distribuciones más fundamentales que forman la base de la mayoría de las pruebas de hipótesis.
La distribución normal, o "campana de Gauss", es la reina de las distribuciones. Su fama se debe principalmente a un concepto casi mágico llamado Teorema del Límite Central (TLC).
El TLC establece algo asombroso: si tomas muchas muestras de cualquier población (incluso una con una distribución extraña) y calculas la media de cada una de esas muestras, la distribución de esas medias muestrales tenderá a formar una curva normal perfecta.
Analogía: Imagina que mides la altura de miles de personas en un festival de disfraces. La distribución de alturas podría ser muy rara (con grupos de gente alta, gente baja, etc.). Ahora, si tomas grupos de 30 personas al azar, calculas su altura promedio, y repites esto cientos de veces, la gráfica de todos esos promedios que has calculado se verá como una campana de Gauss.
Esta es la razón por la que podemos usar la distribución normal para hacer inferencias sobre las medias muestrales, incluso si no sabemos cómo se distribuye la población original.
La distribución t es una pariente cercana de la distribución normal. Podríamos pensar en ella como una versión más cautelosa o escéptica de la campana de Gauss.
La usamos en el escenario más común de la estadística: cuando trabajamos con una muestra, no conocemos la desviación estándar de toda la población (σ), y por lo tanto tenemos que estimarla usando la desviación estándar de nuestra muestra (s).
Esta estimación introduce una capa extra de incertidumbre. La distribución t se ajusta a esta incertidumbre, especialmente cuando nuestras muestras son pequeñas.
Aplicación principal: Es la base para las pruebas t y los intervalos de confianza para medias, que son de las herramientas más usadas en la estadística.
La distribución Chi-cuadrado (o Ji-cuadrado) es nuestra herramienta para trabajar con datos categóricos (datos que se cuentan en categorías, como "Sí/No/Quizás" o "Rojo/Verde/Azul"). Su propósito principal es evaluar cuán bien nuestros datos observados se ajustan a un modelo o teoría que teníamos.
El estadístico χ² es, en esencia, una medida de la distancia total entre lo que observamos y lo que esperábamos observar. Siempre es un valor positivo; un valor de 0 significa un ajuste perfecto, y valores más grandes indican una mayor discrepancia.
Analogía: Un fabricante de M&M's afirma que el 20% de los caramelos son rojos, 20% azules, 20% verdes, 20% amarillos y 20% marrones. Tú compras una bolsa grande, cuentas los colores y comparas tus conteos observados con los conteos que esperarías según la afirmación del fabricante. El estadístico χ² te dice si la diferencia es tan grande que deberías dudar de la afirmación del fabricante.
Analogía: Quieres saber si la preferencia por un género de película (Comedia, Acción, Drama) está relacionada con el género de la persona (Hombre, Mujer). Creas una tabla de contingencia con tus datos. La prueba χ² compara tus conteos observados con los que esperarías si no hubiera ninguna relación entre las variables. Un valor χ² alto sugiere que sí hay una asociación: el género de la persona influye en su preferencia por un tipo de película.
Al igual que otras distribuciones, su forma depende de los grados de libertad (df), que en este contexto se relacionan con el número de categorías que se están comparando.
La distribución F es la base del Análisis de Varianza (ANOVA), una técnica poderosa para comparar las medias de tres o más grupos simultáneamente.
Mientras que una prueba t puede comparar dos medias, usar múltiples pruebas t para comparar muchos grupos aumenta drásticamente la probabilidad de cometer un error (un falso positivo). ANOVA, usando la distribución F, resuelve este problema.
El estadístico F se puede entender de forma intuitiva como una simple razón:
F = Variabilidad ENTRE los grupos / Variabilidad DENTRO de los grupos
Analogía: Imagina que estás probando tres fertilizantes diferentes (A, B, C) en tres grupos de plantas. Después de un mes, mides sus alturas.
La distribución F, definida por dos tipos de grados de libertad (uno para los grupos y otro para los datos totales), nos dice si nuestro estadístico F es lo suficientemente grande como para ser estadísticamente significativo.
Una de las mejores maneras de entender estas distribuciones es verlas en acción. El siguiente código en Python utiliza las librerías NumPy
para generar datos aleatorios, SciPy
para acceder a las funciones de las distribuciones y Matplotlib
para visualizarlas.
El script creará un panel con cuatro gráficos, uno para cada distribución, permitiéndonos comparar sus formas características.
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import t, chi2, f, norm
# --- 1. Configuración General del Gráfico ---
# Crear una figura grande que contendrá 4 sub-gráficos (2 filas, 2 columnas)
plt.figure(figsize=(14, 10))
# Título general para toda la figura
plt.suptitle('Visualización de Distribuciones de Referencia', fontsize=16)
# --- 2. Distribución Normal ---
mu, sigma = 0, 1 # Media y desviación estándar para la normal estándar
s_normal = np.random.normal(mu, sigma, 10000) # Generar 10000 puntos aleatorios
# Seleccionar el primer sub-gráfico
plt.subplot(2, 2, 1)
# Crear un histograma de los datos. density=True normaliza el área a 1.
plt.hist(s_normal, bins=50, density=True, alpha=0.7, color='skyblue', label='Muestra Aleatoria')
# Dibujar la línea teórica (PDF - Función de Densidad de Probabilidad)
x = np.linspace(s_normal.min(), s_normal.max(), 100)
plt.plot(x, norm.pdf(x, mu, sigma), 'r-', lw=2, label='PDF Teórica')
plt.title('Distribución Normal (μ=0, σ=1)')
plt.xlabel('Valor')
plt.ylabel('Densidad')
plt.legend()
plt.grid(True)
# --- 3. Distribución t de Student ---
df_t = 5 # Grados de libertad (un valor bajo para notar las colas pesadas)
s_t = t.rvs(df_t, size=10000)
# Seleccionar el segundo sub-gráfico
plt.subplot(2, 2, 2)
plt.hist(s_t, bins=50, density=True, alpha=0.7, color='lightgreen', label='Muestra Aleatoria')
# Dibujar la PDF teórica de la t-distribución
x = np.linspace(s_t.min(), s_t.max(), 100)
plt.plot(x, t.pdf(x, df_t), 'r-', lw=2, label='PDF Teórica')
plt.title(f'Distribución t de Student (df={df_t})')
plt.xlabel('Valor')
plt.ylabel('Densidad')
plt.legend()
plt.grid(True)
# --- 4. Distribución Chi-cuadrado ---
df_chi2 = 8 # Grados de libertad
s_chi2 = chi2.rvs(df_chi2, size=10000)
# Seleccionar el tercer sub-gráfico
plt.subplot(2, 2, 3)
plt.hist(s_chi2, bins=50, density=True, alpha=0.7, color='salmon', label='Muestra Aleatoria')
# Dibujar la PDF teórica
x = np.linspace(s_chi2.min(), s_chi2.max(), 100)
plt.plot(x, chi2.pdf(x, df_chi2), 'r-', lw=2, label='PDF Teórica')
plt.title(f'Distribución Chi-cuadrado (df={df_chi2})')
plt.xlabel('Valor')
plt.ylabel('Densidad')
plt.legend()
plt.grid(True)
# --- 5. Distribución F ---
dfn, dfd = 5, 15 # Grados de libertad del numerador y denominador
s_f = f.rvs(dfn, dfd, size=10000)
# Seleccionar el cuarto sub-gráfico
plt.subplot(2, 2, 4)
plt.hist(s_f, bins=50, density=True, alpha=0.7, color='plum', label='Muestra Aleatoria')
# Dibujar la PDF teórica
x = np.linspace(s_f.min(), s_f.max(), 100)
plt.plot(x, f.pdf(x, dfn, dfd), 'r-', lw=2, label='PDF Teórica')
plt.title(f'Distribución F (dfn={dfn}, dfd={dfd})')
plt.xlabel('Valor')
plt.ylabel('Densidad')
plt.legend()
plt.grid(True)
# Ajustar el diseño para que los títulos y etiquetas no se superpongan
plt.tight_layout(rect=[0, 0.03, 1, 0.95])
# Mostrar el gráfico
plt.show()
Al ejecutar este código, podrás observar:
Estos gráficos demuestran cómo una muestra aleatoria grande (el histograma) tiende a seguir la forma de su distribución teórica subyacente (la línea roja).