1. Introducción a Matplotlib

1.1 ¿Qué es Matplotlib y por qué es importante en Ciencia de Datos?

Matplotlib es la librería estándar de Python para visualización de datos. Fue creada en 2003 por John D. Hunter y, desde entonces, se convirtió en la base para construir gráficos dentro del ecosistema de Python.

Su objetivo es ofrecer herramientas para generar gráficos 2D de alta calidad: desde diagramas de líneas simples hasta composiciones complejas con múltiples ejes, estilos personalizados y exportación a diversos formatos de imagen.

En Ciencia de Datos, la visualización es clave porque:

  • 🔎 Exploración: ayuda a detectar patrones, tendencias y anomalías en los datos.
  • 📣 Comunicación: permite transmitir hallazgos de forma clara a personas no técnicas.
  • Apoyo en el modelado: facilita el análisis previo antes de aplicar algoritmos de machine learning.
Por ejemplo: en un dataset de ventas, una tabla con miles de registros puede ser difícil de interpretar. Un gráfico de líneas con las ventas por mes deja ver al instante si las ventas aumentan, disminuyen o presentan estacionalidad.

1.2 Instalación en Python

Para instalar Matplotlib basta con utilizar pip, el gestor de paquetes estándar de Python:

pip install matplotlib

Una vez instalado, importa la biblioteca en tu script y crea un primer gráfico:

import matplotlib.pyplot as plt

# Grafico simple
plt.plot([1, 2, 3, 4], [10, 20, 25, 30])
plt.title("Ejemplo basico con Matplotlib")
plt.xlabel("Eje X")
plt.ylabel("Eje Y")
plt.show()
Grafico simple generado con Matplotlib

Este ejemplo dibuja una línea que conecta los puntos (1, 10), (2, 20), (3, 25) y (4, 30). El comando plt.show() abre la ventana del gráfico.

1.3 Comparación con otras librerías de visualización

Aunque Matplotlib es la base del ecosistema de visualización, existen librerías que se construyeron sobre ella o que la complementan según las necesidades del proyecto.

Seaborn

Seaborn se construye sobre Matplotlib y simplifica la creación de gráficos estadísticos.

  • Ventajas: estilos atractivos por defecto y funciones pensadas para boxplots, violin plots, mapas de calor y distribuciones.
  • Ejemplo:
import seaborn as sns
import matplotlib.pyplot as plt

tips = sns.load_dataset("tips")
sns.boxplot(x="day", y="total_bill", data=tips)
plt.show()
Boxplot generado con Seaborn

El llamado a plt.show() asegura que el gráfico se renderice correctamente tanto en ventanas interactivas como en notebooks.

Plotly

Plotly es una librería independiente enfocada en generar gráficos interactivos con capacidades de zoom, hover y selección.

Para instalar Plotly con pip, ejecutá:

pip install plotly
  • Ventajas: interactividad nativa e integración con la plataforma Dash para dashboards.
  • Ejemplo:
import plotly.express as px

df = px.data.iris()
fig = px.scatter(df, x="sepal_width", y="sepal_length", color="species")
fig.show()
Dispersión interactiva con Plotly
Resumen comparativo
Librería Base Estilo por defecto Interactividad Facilidad para análisis estadístico
Matplotlib Clásica Clásico y totalmente personalizable No (a menos que se use mpld3 o ipywidgets) Media
Seaborn Basada en Matplotlib Muy atractivo Limitada Alta (pensada para estadística)
Plotly Independiente Muy atractivo Sí, completa Media

Conclusión

Matplotlib es el punto de partida y la base de todo. Seaborn lo complementa para obtener gráficos estadísticos con rapidez y Plotly es ideal cuando se necesita interactividad y dashboards.

En este tutorial nos enfocaremos en Matplotlib porque dominarlo te permitirá entender cómo funcionan las demás librerías de visualización en Python.