4. Herramientas en Ciencia de Datos

La ciencia de datos moderna se apoya en un ecosistema dinámico de herramientas para programar, experimentar y visualizar. Aquí repasamos las básicas que todo principiante debería dominar: Python como lenguaje, Jupyter Notebook como entorno interactivo y un conjunto de librerías clave.

Estas tecnologías se estudiarán en detalle a lo largo de los próximos tutoriales para que puedas aplicarlas paso a paso.

4.1 Python como lenguaje principal

¿Por qué usar Python?

  • Sintaxis sencilla y legible, ideal para comenzar y mantener proyectos colaborativos.
  • Gran comunidad que comparte código, tutoriales y soporte permanente.
  • Ecosistema rico: miles de paquetes especializados en ciencia de datos, inteligencia artificial y machine learning.
  • Versatilidad para scripting, aplicaciones web, análisis de datos y automatización.

Instalación básica

  1. Descargar e instalar la versión estable desde el sitio oficial.
  2. Verificar la instalación en la terminal:
python --version

El gestor de paquetes pip viene incluido en versiones recientes, por lo que no requiere pasos adicionales.

Puedes comenzar a aprender Python con el curso de Python YA.

4.2 Jupyter Notebook como entorno de trabajo

¿Qué es?

  • Permite escribir código en celdas y ejecutarlo por partes.
  • Incorpora texto, imágenes y ecuaciones en formato Markdown.
  • Guarda el trabajo en archivos .ipynb, ideales para documentar proyectos.

Instalación y ejecución

Instalar Notebook desde la terminal:

pip install notebook

Luego iniciar la interfaz web:

jupyter notebook

Se abrirá una pestaña del navegador para crear y ejecutar notebooks paso a paso.

Ventajas principales

  • Ideal para experimentar y depurar código rápidamente.
  • Perfecto para documentar el análisis junto con resultados y visualizaciones.
  • Adoptado en empresas, universidades y proyectos de investigación.

4.3 Librerías fundamentales

NumPy

NumPy es una librería para cálculo numérico eficiente. Permite trabajar con arreglos y matrices de manera veloz, aprovechando operaciones vectorizadas.

import numpy as np

a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

print("Suma:", a + b)
print("Producto punto:", np.dot(a, b))

Pandas

Pandas es una librería para manipulación y análisis de datos tabulares. Introduce las estructuras Series y DataFrame, ideales para leer y transformar archivos CSV, Excel, JSON o SQL.

import pandas as pd

# Crear un DataFrame
data = {
    "Nombre": ["Ana", "Luis", "Carla"],
    "Edad": [23, 30, 27],
    "Ciudad": ["Córdoba", "Rosario", "Mendoza"]
}

df = pd.DataFrame(data)

print(df)
print(df.describe())  # Estadísticas básicas

Matplotlib

Matplotlib es la librería estándar para visualización. Permite crear gráficos de líneas, barras, histogramas o diagramas de dispersión y se integra con los DataFrames de Pandas.

import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]

plt.plot(x, y, marker="o")
plt.title("Gráfico simple")
plt.xlabel("Eje X")
plt.ylabel("Eje Y")
plt.show()

scikit-learn

scikit-learn es la biblioteca más utilizada para machine learning en Python. Incluye algoritmos listos para regresión, clasificación, clustering y herramientas para evaluar modelos.

from sklearn.linear_model import LinearRegression
import numpy as np

# Datos ficticios
x = np.array([1, 2, 3, 4, 5]).reshape(-1, 1)
y = np.array([2, 4, 6, 8, 10])

modelo = LinearRegression()
modelo.fit(x, y)

print("Pendiente:", modelo.coef_)
print("Intersección:", modelo.intercept_)
print("Predicción para 6:", modelo.predict([[6]])[0])

4.4 Resumen

  • Python es el lenguaje central por su simplicidad, comunidad y ecosistema.
  • Jupyter Notebook ofrece un entorno ideal para aprender, documentar y compartir análisis.
  • NumPy y Pandas conforman la base numérica y tabular para manipular datos.
  • Matplotlib aporta visualizaciones rápidas y personalizables.
  • scikit-learn facilita el salto a modelos predictivos con una API unificada.