La ciencia de datos moderna se apoya en un ecosistema dinámico de herramientas para programar, experimentar y visualizar. Aquí repasamos las básicas que todo principiante debería dominar: Python como lenguaje, Jupyter Notebook como entorno interactivo y un conjunto de librerías clave.
Estas tecnologías se estudiarán en detalle a lo largo de los próximos tutoriales para que puedas aplicarlas paso a paso.
python --version
El gestor de paquetes pip viene incluido en versiones recientes, por lo que no requiere pasos adicionales.
Puedes comenzar a aprender Python con el curso de Python YA.
.ipynb
, ideales para documentar proyectos.Instalar Notebook desde la terminal:
pip install notebook
Luego iniciar la interfaz web:
jupyter notebook
Se abrirá una pestaña del navegador para crear y ejecutar notebooks paso a paso.
NumPy es una librería para cálculo numérico eficiente. Permite trabajar con arreglos y matrices de manera veloz, aprovechando operaciones vectorizadas.
import numpy as np
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
print("Suma:", a + b)
print("Producto punto:", np.dot(a, b))
Pandas es una librería para manipulación y análisis de datos tabulares. Introduce las estructuras Series y DataFrame, ideales para leer y transformar archivos CSV, Excel, JSON o SQL.
import pandas as pd
# Crear un DataFrame
data = {
"Nombre": ["Ana", "Luis", "Carla"],
"Edad": [23, 30, 27],
"Ciudad": ["Córdoba", "Rosario", "Mendoza"]
}
df = pd.DataFrame(data)
print(df)
print(df.describe()) # Estadísticas básicas
Matplotlib es la librería estándar para visualización. Permite crear gráficos de líneas, barras, histogramas o diagramas de dispersión y se integra con los DataFrames de Pandas.
import matplotlib.pyplot as plt
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]
plt.plot(x, y, marker="o")
plt.title("Gráfico simple")
plt.xlabel("Eje X")
plt.ylabel("Eje Y")
plt.show()
scikit-learn es la biblioteca más utilizada para machine learning en Python. Incluye algoritmos listos para regresión, clasificación, clustering y herramientas para evaluar modelos.
from sklearn.linear_model import LinearRegression
import numpy as np
# Datos ficticios
x = np.array([1, 2, 3, 4, 5]).reshape(-1, 1)
y = np.array([2, 4, 6, 8, 10])
modelo = LinearRegression()
modelo.fit(x, y)
print("Pendiente:", modelo.coef_)
print("Intersección:", modelo.intercept_)
print("Predicción para 6:", modelo.predict([[6]])[0])