Un proyecto de ciencia de datos va mucho más allá de entrenar un modelo. Se compone de etapas que se retroalimentan: recolección, limpieza, análisis exploratorio, modelado y comunicación. Cada fase es clave para lograr resultados útiles y confiables.
Estos temas se profundizarán a lo largo del curso para que puedas aplicarlos de principio a fin.
Ejemplo en Python con Pandas:
import pandas as pd
# Cargar dataset
df = pd.read_csv("ventas.csv")
print(df.head())
NaN
) y eliminación de duplicados.# Eliminar filas con valores nulos
df = df.dropna()
# Rellenar valores faltantes con la media
df["precio"].fillna(df["precio"].mean(), inplace=True)
# Eliminar duplicados
df = df.drop_duplicates()
Objetivos:
Herramientas clave: estadísticas descriptivas con Pandas, gráficos con Seaborn y Matplotlib.
import seaborn as sns
import matplotlib.pyplot as plt
# Estadísticas básicas
print(df.describe())
# Histograma de precios
sns.histplot(df["precio"], kde=True)
plt.show()
# Correlación entre variables
sns.heatmap(df.corr(), annot=True, cmap="coolwarm")
plt.show()
Proceso típico:
Ejemplo con scikit-learn:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
X = df[["cantidad", "costo"]] # Variables predictoras
y = df["precio"] # Variable objetivo
# Dividir en train/test
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42
)
# Crear y entrenar modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)
# Predicciones
predicciones = modelo.predict(X_test)
# Evaluación
print("Error cuadrático medio:", mean_squared_error(y_test, predicciones))
Un modelo es útil cuando los hallazgos se comunican de forma clara:
plt.scatter(y_test, predicciones)
plt.xlabel("Valores reales")
plt.ylabel("Predicciones")
plt.title("Real vs. Predicho")
plt.show()
Consejos de comunicación: evitar tecnicismos con audiencias no técnicas, explicar qué decisiones se habilitan y ser transparente sobre limitaciones y mejoras futuras.
El proyecto es exitoso cuando los hallazgos generan decisiones de negocio o impacto tangible, no solo cuando se obtiene el modelo más exacto.