Para trabajar con Deep Learning no alcanza con saber que existen redes neuronales. Es necesario entender sus piezas básicas, cómo se conectan y cómo procesan la información. Estos conceptos fundamentales son el idioma base del curso: aparecerán una y otra vez cuando construyamos modelos con PyTorch.
Una red neuronal puede parecer algo complejo a primera vista, pero en realidad está formada por ideas relativamente simples que, combinadas en gran cantidad, permiten resolver tareas muy sofisticadas.
En este tema veremos esas ideas una por una, con un enfoque claro y pensado para estudiantes que están comenzando.
Una red neuronal artificial es un modelo matemático inspirado de manera muy simplificada en el funcionamiento del cerebro. Está compuesta por muchas unidades pequeñas llamadas neuronas artificiales, organizadas en capas y conectadas entre sí.
Su objetivo es recibir datos de entrada, transformarlos internamente y producir una salida útil, como una clasificación, una predicción numérica o una decisión.
Por ejemplo, una red neuronal puede recibir información sobre una vivienda y predecir su precio. También puede recibir una imagen y decidir si contiene un perro, un gato o un automóvil.
La neurona artificial es el bloque más simple dentro de una red neuronal. Su funcionamiento puede resumirse en tres pasos:
Es decir, la neurona no solo recibe información, sino que la transforma. Esa transformación es lo que permite que la red aprenda patrones.
Las entradas son los datos con los que trabaja la red neuronal. Pueden ser números que representan distintas características del problema.
Por ejemplo, si queremos predecir el precio de una casa, algunas entradas podrían ser:
Si trabajamos con imágenes, las entradas pueden ser los valores numéricos de los píxeles. Si trabajamos con audio, pueden ser muestras de señal. Si trabajamos con texto, pueden ser representaciones numéricas de palabras o fragmentos del lenguaje.
En Deep Learning, todo termina convirtiéndose en números.
No todas las entradas tienen la misma relevancia. Para eso existen los pesos. Cada entrada de una neurona se multiplica por un peso, y ese peso indica cuánto debe influir esa entrada en el resultado final.
Si un peso es grande, significa que la entrada asociada tiene mucha influencia. Si es pequeño, su influencia será menor. Si el peso es negativo, puede hacer que esa entrada empuje el resultado en dirección opuesta.
Por ejemplo, en un problema de aprobación de crédito, el nivel de ingreso puede tener un peso positivo alto, mientras que la cantidad de deudas puede tener un efecto negativo.
Aprender en una red neuronal significa, en gran parte, encontrar buenos valores para estos pesos.
Además de los pesos, una neurona suele incluir un valor llamado bias o sesgo. Este valor se suma al resultado de la combinación ponderada de entradas.
¿Para qué sirve? Sirve para dar flexibilidad al modelo. Permite desplazar la respuesta de la neurona y evitar que todo dependa exclusivamente de que las entradas sean grandes o pequeñas.
Una forma intuitiva de pensarlo es esta: los pesos controlan cuánto influye cada entrada, mientras que el bias permite ajustar el punto a partir del cual la neurona se activa más o menos.
Antes de producir una salida, la neurona realiza una combinación matemática de sus entradas. Multiplica cada entrada por su peso correspondiente, suma todos esos productos y luego agrega el bias.
De manera conceptual:
Esta suma ponderada es una parte fundamental de casi todas las redes neuronales. A partir de ella, la neurona decide qué salida producir.
Después de calcular la suma ponderada, la neurona suele aplicar una función de activación. Esta función transforma el valor obtenido y define la salida final de la neurona.
Las funciones de activación son esenciales porque introducen no linealidad. Sin ellas, una red con muchas capas se comportaría en la práctica como una transformación lineal más simple.
Más adelante estudiaremos funciones de activación concretas como ReLU, Sigmoid y Tanh. Por ahora, lo importante es entender su papel: permiten que la red aprenda relaciones complejas y no solo proporciones simples.
La salida de una neurona puede convertirse en entrada para otras neuronas. Cuando hablamos de la red completa, la salida final depende del problema que queremos resolver.
Algunos ejemplos:
La red completa transforma datos de entrada en una salida final pasando por múltiples neuronas y capas intermedias.
Las neuronas no están sueltas. Se organizan en capas. En una red neuronal típica encontramos tres tipos principales de capas:
Las capas ocultas se llaman así porque no están directamente visibles para el usuario: forman parte del procesamiento interno del modelo.

La capa de entrada es el punto de contacto entre los datos y la red. No suele realizar cálculos complejos por sí misma; su función principal es presentar los valores iniciales al resto del modelo.
Si un problema tiene 10 variables de entrada, la capa de entrada tendrá normalmente 10 nodos. Si una imagen tiene muchos píxeles, esos píxeles se convierten en los datos de entrada del sistema.
Las capas ocultas son el corazón de la red neuronal. En ellas se realizan las transformaciones que permiten extraer patrones, combinar información y construir representaciones más útiles.
Cuantas más capas ocultas tenga una red, más "profunda" será. De ahí surge el término Deep Learning.
Por ejemplo, en una red para reconocimiento de imágenes:
La capa de salida entrega el resultado final del modelo. Su forma depende del tipo de tarea:
La arquitectura de la capa de salida debe estar alineada con el problema que queremos resolver.
Las neuronas de una capa suelen estar conectadas con las de la capa siguiente. Cada conexión tiene un peso asociado. Esto significa que la salida de una neurona no pasa a la siguiente "tal cual", sino modulada por ese peso.
Las conexiones permiten que la información fluya por la red y que diferentes neuronas colaboren en la construcción de una respuesta.
En redes totalmente conectadas, cada neurona de una capa se conecta con todas las de la siguiente. En otras arquitecturas, como CNN o RNN, las conexiones siguen patrones más especializados.
La palabra arquitectura se refiere a la forma general de la red: cuántas capas tiene, cuántas neuronas hay en cada una, cómo están conectadas y qué funciones de activación utiliza.
Elegir una arquitectura adecuada es una parte importante del diseño de un modelo. No existe una arquitectura universalmente mejor para todos los problemas.
Algunos ejemplos de decisiones de arquitectura son:
Los parámetros de una red son los valores que el modelo aprende durante el entrenamiento. Principalmente, estos parámetros son los pesos y los bias.
Cuando entrenamos una red neuronal, lo que buscamos es ajustar esos parámetros para que la salida del modelo se acerque lo más posible a la respuesta correcta.
Cuantos más parámetros tiene una red, mayor puede ser su capacidad para aprender patrones complejos. Pero también mayor puede ser el riesgo de sobreajuste y mayor el costo computacional.
Es importante distinguir entre parámetros e hiperparámetros.
Ejemplos de hiperparámetros:
Más adelante veremos estos conceptos en detalle, pero conviene diferenciarlos desde ahora.
Cuando una red procesa un ejemplo, la información avanza desde la entrada hacia la salida. Este recorrido se llama propagación hacia adelante o forward propagation.
En ese proceso:
Luego, durante el entrenamiento, esa predicción se compara con la respuesta correcta y se corrigen los parámetros mediante otro proceso que estudiaremos más adelante: el backpropagation.
Una idea central en redes neuronales es la no linealidad. Si todas las transformaciones de una red fueran lineales, el modelo tendría una capacidad limitada y no podría capturar relaciones complejas entre variables.
Las funciones de activación permiten introducir esa no linealidad. Gracias a ellas, la red puede modelar comportamientos mucho más ricos: curvas complejas, fronteras de decisión irregulares y patrones difíciles de describir con una fórmula simple.
Esto es parte de lo que hace tan poderoso al Deep Learning.
Una red neuronal no solo produce una salida. También construye representaciones internas de los datos. Es decir, a medida que la información pasa por las capas, cambia de forma y se vuelve más útil para la tarea.
Por ejemplo, una imagen inicialmente es solo una matriz de píxeles. Pero después de varias capas, la red puede haber transformado esa imagen en una representación interna que resalta bordes, formas, texturas y combinaciones visuales importantes.
Este aprendizaje de representaciones es una de las mayores diferencias entre las redes neuronales profundas y muchos métodos clásicos.
Supongamos una red pequeña que recibe dos entradas:
Y quiere predecir si un estudiante aprobará un examen.
El proceso conceptual sería:
Si la predicción es mala, durante el entrenamiento se ajustan los pesos para mejorarla.
La capacidad de una red neuronal se refiere a su habilidad para aprender patrones y relaciones en los datos. Una red muy pequeña puede no tener capacidad suficiente para resolver un problema complejo. Una red demasiado grande puede aprender demasiado bien los datos de entrenamiento y no generalizar bien.
Por eso, diseñar una red implica buscar un equilibrio. Más adelante esto se relacionará con conceptos como subajuste, sobreajuste y regularización.
Una red neuronal no debe limitarse a memorizar ejemplos. Su verdadero objetivo es generalizar, es decir, funcionar bien con datos nuevos que no vio durante el entrenamiento.
Si una red aprende solo los ejemplos exactos del entrenamiento, pero falla ante nuevos casos, entonces no está resolviendo realmente el problema.
La generalización es uno de los objetivos centrales del aprendizaje automático y será una preocupación constante en el entrenamiento de modelos.
Conviene diferenciar dos momentos en la vida de una red neuronal:
Durante el entrenamiento, el modelo necesita ejemplos y respuestas correctas. Durante la inferencia, solo necesita nuevas entradas para producir resultados.
No todas las redes neuronales son profundas. Una red sencilla puede tener una sola capa oculta. Una red profunda tiene varias capas ocultas.
La ventaja de la profundidad es que permite aprender representaciones jerárquicas. Sin embargo, también aumenta la complejidad del entrenamiento y la necesidad de recursos.
Por eso el Deep Learning no es solo "usar redes neuronales", sino trabajar con redes suficientemente complejas y profundas para capturar patrones avanzados.
| Concepto | Qué significa | Función en la red |
|---|---|---|
| Entrada | Dato que recibe el modelo. | Proporciona la información inicial. |
| Peso | Valor que mide la importancia de una conexión. | Modula la influencia de cada entrada. |
| Bias | Ajuste adicional sumado a la combinación. | Da flexibilidad al modelo. |
| Activación | Función aplicada al resultado intermedio. | Introduce no linealidad. |
| Capa | Conjunto de neuronas. | Organiza el procesamiento. |
| Salida | Respuesta final del modelo. | Entrega la predicción o clasificación. |
Los conceptos fundamentales de redes neuronales son la base sobre la que se construye todo el Deep Learning. Una vez que se entienden entradas, pesos, bias, activaciones, capas y flujo de información, el funcionamiento general de una red deja de parecer misterioso y empieza a volverse lógico.
Este tema es especialmente importante porque prepara el terreno para lo que viene. En los próximos capítulos iremos profundizando en cada componente, comenzando por las neuronas artificiales y el perceptrón, que son el punto de partida histórico y conceptual de las redes neuronales modernas.