Deep Learning - 2. Historia y evolución de las redes neuronales

2.1 Introducción

Cuando hoy hablamos de Deep Learning, solemos pensar en asistentes virtuales, reconocimiento facial, traducción automática o modelos capaces de generar texto e imágenes. Sin embargo, las ideas que dieron origen a estas tecnologías no son nuevas. Las redes neuronales artificiales tienen una historia larga, con avances brillantes, períodos de entusiasmo, momentos de decepción y un resurgimiento espectacular.

Comprender la historia de las redes neuronales es importante por dos razones. Primero, porque ayuda a entender que muchas ideas actuales se apoyan en conceptos desarrollados hace décadas. Segundo, porque permite ver que el progreso en inteligencia artificial no depende solo de tener una buena idea teórica: también influyen la disponibilidad de datos, el poder de cómputo y las herramientas de programación.

En este tema recorreremos la evolución de las redes neuronales desde sus orígenes inspirados en la biología hasta su consolidación como base del Deep Learning moderno.

2.2 El punto de partida: inspiración en el cerebro

La idea de construir sistemas inspirados en el cerebro humano surgió mucho antes de que existieran las computadoras modernas tal como las conocemos hoy. Los investigadores se preguntaban si era posible crear un modelo matemático simplificado de una neurona y, a partir de muchas neuronas conectadas, obtener un comportamiento inteligente.

La neurona biológica recibe señales de otras neuronas, las procesa y, si se supera cierto umbral, produce una respuesta. Este principio básico inspiró la idea de la neurona artificial: una unidad que recibe entradas, las combina y genera una salida.

Aunque las redes neuronales artificiales son una simplificación extrema del cerebro, esta inspiración biológica fue el punto de partida conceptual que permitió avanzar hacia modelos computacionales de aprendizaje.

2.3 1943: McCulloch y Pitts, el primer modelo matemático

Uno de los primeros hitos históricos ocurrió en 1943, cuando Warren McCulloch y Walter Pitts propusieron un modelo matemático muy simple de neurona artificial. Su idea consistía en representar una neurona como una unidad lógica que recibe entradas binarias y produce una salida también binaria.

Este modelo no aprendía a partir de datos como lo hacen las redes actuales, pero fue revolucionario porque mostró que era posible representar procesos de razonamiento usando unidades inspiradas en neuronas.

En otras palabras, McCulloch y Pitts demostraron que un conjunto de neuronas artificiales podía, al menos en teoría, realizar cálculos lógicos. Esto sentó las bases para conectar la neurociencia, la matemática y la informática.

Idea central de esta etapa: si una neurona puede representarse matemáticamente, entonces una red de neuronas también podría convertirse en un sistema computacional.

2.4 Década de 1950: Hebb y la idea del aprendizaje

En 1949, Donald Hebb propuso una idea fundamental sobre cómo podría ocurrir el aprendizaje en el cerebro. Su principio, resumido de forma popular como "las neuronas que se activan juntas, se conectan juntas", sugería que la conexión entre dos neuronas se fortalece cuando ambas se activan al mismo tiempo.

Aunque esta regla no es exactamente la que usan las redes profundas actuales, fue muy importante porque introdujo una noción central: aprender significa modificar las conexiones.

Esta idea sigue siendo esencial en inteligencia artificial. Hoy, cuando entrenamos una red neuronal, lo que realmente hacemos es ajustar los pesos de las conexiones entre neuronas artificiales para mejorar su capacidad de resolver una tarea.

2.5 1957: el perceptrón de Frank Rosenblatt

En 1957, Frank Rosenblatt presentó uno de los modelos más famosos de la historia de la inteligencia artificial: el perceptrón. Este modelo es considerado uno de los ancestros directos de las redes neuronales modernas.

El perceptrón recibía varias entradas, las multiplicaba por pesos, sumaba los resultados y producía una salida. Lo más importante era que podía ajustar sus pesos automáticamente a partir de ejemplos, es decir, tenía una forma elemental de aprendizaje.

Por primera vez, se vio con claridad que una máquina podía aprender una regla de clasificación sin que esa regla fuera programada manualmente. Esto generó un enorme entusiasmo en la comunidad científica.

Por ejemplo, si se le daban datos de entrada asociados a dos categorías distintas, el perceptrón podía intentar encontrar una frontera que separara ambas clases. Era un avance importante, aunque todavía muy limitado.

2.6 El primer entusiasmo por la inteligencia artificial

Durante las décadas de 1950 y 1960, muchos investigadores comenzaron a pensar que las máquinas inteligentes estaban a la vuelta de la esquina. El perceptrón y otros modelos tempranos despertaron una gran expectativa.

La idea de construir máquinas que aprendieran generó titulares, inversiones y proyectos de investigación ambiciosos. Se pensaba que, con suficientes mejoras, pronto sería posible resolver problemas complejos como visión artificial, traducción automática o razonamiento general.

Sin embargo, el entusiasmo inicial chocó con una realidad técnica: los modelos disponibles en ese momento eran demasiado simples para resolver tareas realmente difíciles.

2.7 1969: Minsky y Papert señalan las limitaciones

En 1969, Marvin Minsky y Seymour Papert publicaron un libro muy influyente en el que analizaron las capacidades y limitaciones del perceptrón. Mostraron que un perceptrón de una sola capa no podía resolver ciertos problemas simples, como la función lógica XOR.

¿Por qué era tan importante esto? Porque revelaba que una red neuronal muy simple tenía una capacidad de representación limitada. No bastaba con una sola capa para aprender relaciones más complejas.

El problema no era que las redes neuronales fueran una mala idea en general, sino que en ese momento no existía una forma práctica y efectiva de entrenar redes con múltiples capas ocultas.

El impacto fue enorme. Muchos investigadores y financiadores comenzaron a perder interés, y esto contribuyó a un período de estancamiento en el área.

2.8 El primer "invierno" de las redes neuronales

Después de las críticas a las limitaciones del perceptrón, el entusiasmo disminuyó notablemente. Este período se conoce como una etapa del invierno de la inteligencia artificial, una época en la que las expectativas eran altas pero los resultados prácticos no estaban a la altura.

Durante estos años, las redes neuronales perdieron protagonismo frente a otros enfoques de la IA y de la computación simbólica. Muchos proyectos dejaron de recibir financiamiento y la investigación en redes neuronales avanzó más lentamente.

Este momento histórico es una buena lección para el estudiante: en ciencia y tecnología, una idea poderosa puede quedar temporalmente relegada si no existen las herramientas adecuadas para desarrollarla.

2.9 Década de 1980: el resurgimiento y el backpropagation

Las redes neuronales volvieron a ganar fuerza en la década de 1980. La gran razón fue la difusión de un método de entrenamiento mucho más efectivo para redes multicapa: el backpropagation, o retropropagación del error.

Aunque la idea matemática tenía antecedentes previos, el trabajo de David Rumelhart, Geoffrey Hinton y Ronald Williams en 1986 ayudó a popularizar este enfoque y a mostrar su utilidad práctica.

El backpropagation permitió calcular cómo debía ajustarse cada peso de una red para reducir el error de salida. Esto resolvía, en parte, el gran problema que había frenado a las redes neuronales durante años: cómo entrenar modelos con capas ocultas.

Gracias a este avance, se hizo posible trabajar con redes más profundas y con tareas más complejas que las que podía manejar un perceptrón simple.

Sin backpropagation, el Deep Learning moderno no existiría tal como lo conocemos.

2.10 Redes multicapa: un salto conceptual

Con la posibilidad de entrenar redes con varias capas, los investigadores empezaron a comprender mejor algo fundamental: una red neuronal no necesita limitarse a una sola transformación. Puede construir varias etapas de procesamiento y aprender representaciones internas más ricas.

Este cambio fue clave porque permitió salir de modelos demasiado simples. Las redes multicapa podían abordar relaciones no lineales y problemas más realistas.

Aquí aparece una idea que luego será central en Deep Learning: cada capa puede aprender un nivel de abstracción diferente. Esa visión jerárquica del aprendizaje fue ganando fuerza a medida que avanzaban las investigaciones.

2.11 Los años 80 y 90: avances importantes, pero limitados

Durante las décadas de 1980 y 1990 hubo avances importantes en redes neuronales. Se desarrollaron redes para reconocimiento de patrones, series temporales y otras aplicaciones. También aparecieron arquitecturas especializadas, como las redes convolucionales y las redes recurrentes, aunque todavía no tenían el impacto masivo que lograrían más tarde.

Sin embargo, seguían existiendo limitaciones muy fuertes:

La capacidad de cómputo era reducida.
Los conjuntos de datos eran pequeños en comparación con los actuales.
Entrenar redes profundas era lento y difícil.
Había problemas técnicos como el desvanecimiento del gradiente.

Por estas razones, aunque las redes neuronales seguían investigándose, otros métodos de Machine Learning llegaron a ser más populares en muchos contextos.

2.12 La competencia con otros métodos de Machine Learning

En los años 1990 y principios de los 2000, métodos como las máquinas de soporte vectorial (SVM), los árboles de decisión, los bosques aleatorios y otros algoritmos estadísticos lograron muy buenos resultados en múltiples problemas.

En ese período, las redes neuronales no dominaban el panorama. De hecho, en muchas tareas tabulares o estructuradas, otros métodos eran más fáciles de entrenar, requerían menos datos y ofrecían mejor rendimiento.

Esto también es importante para entender la historia: el triunfo actual del Deep Learning no fue lineal ni inevitable. Hubo décadas en las que no era el enfoque principal.

2.13 1998: LeNet y las primeras CNN aplicadas con éxito

Uno de los avances más significativos antes del gran auge moderno fue el trabajo de Yann LeCun y su equipo en redes convolucionales. Su sistema LeNet mostró que las redes neuronales podían usarse eficazmente para reconocer dígitos escritos a mano, como los de cheques bancarios o códigos postales.

Las redes convolucionales, o CNN, introdujeron una idea muy poderosa: aprovechar la estructura espacial de las imágenes. En lugar de tratar cada píxel como una entrada aislada, estas redes aprendían filtros capaces de detectar patrones visuales locales.

Aunque en ese momento no generaron una revolución total, estas ideas fueron precursoras directas de los sistemas modernos de visión artificial.

2.14 1997 y las redes recurrentes modernas: LSTM

Otro avance importante fue el desarrollo de las redes recurrentes y, especialmente, de las LSTM (Long Short-Term Memory), propuestas por Sepp Hochreiter y Jürgen Schmidhuber en 1997.

Las redes recurrentes estaban diseñadas para procesar secuencias, como texto, audio o series temporales. El problema de las versiones tempranas era que les costaba aprender dependencias de largo plazo. Las LSTM ofrecieron un mecanismo más robusto para mantener información durante más pasos temporales.

Esto fue muy relevante para tareas como reconocimiento de voz, traducción automática y modelado del lenguaje, áreas que más tarde serían fundamentales en la explosión del Deep Learning.

2.15 A comienzos de los 2000: la situación antes del gran salto

A principios del siglo XXI, las redes neuronales seguían vivas en la investigación, pero todavía no dominaban la industria ni la mayoría de los proyectos de Machine Learning. Existían buenas ideas, pero faltaban tres ingredientes decisivos:

Conjuntos de datos enormes.
Hardware suficientemente potente para entrenar modelos grandes.
Técnicas más estables para entrenar redes profundas.

En ese momento, las redes neuronales eran prometedoras, pero aún no habían demostrado de forma contundente que podían transformar el campo por completo.

2.16 2006: Geoffrey Hinton y el regreso del término Deep Learning

Un punto clave ocurrió alrededor de 2006, cuando Geoffrey Hinton y otros investigadores impulsaron métodos para entrenar redes con muchas capas y volvieron a poner en escena la idea de modelos profundos. En este contexto, el término Deep Learning empezó a usarse con más fuerza.

La idea de entrenar redes profundas por etapas ayudó a superar algunas dificultades del entrenamiento directo. Aunque estos métodos luego fueron en parte reemplazados por técnicas aún más efectivas, su valor histórico fue enorme: devolvieron confianza a la posibilidad de trabajar con muchas capas.

A partir de allí, el campo comenzó a cambiar rápidamente.

2.17 El papel del hardware: la llegada de las GPU

Uno de los grandes motores del resurgimiento de las redes neuronales fue el uso de GPU para el entrenamiento. Las GPU, originalmente diseñadas para gráficos, resultaron muy eficaces para realizar muchas operaciones matemáticas en paralelo.

Como entrenar una red neuronal implica repetir millones de cálculos matriciales, las GPU ofrecieron una aceleración enorme en comparación con la CPU tradicional.

Este avance no fue un detalle técnico menor. En muchos casos, la diferencia entre entrenar un modelo durante semanas o hacerlo en horas cambió por completo la viabilidad de los experimentos.

2.18 El papel de los datos: internet y Big Data

El segundo gran factor del resurgimiento fue la disponibilidad masiva de datos. Con internet, los teléfonos inteligentes, las redes sociales, los sensores y la digitalización general de la sociedad, comenzó a existir una cantidad inmensa de información utilizable para entrenar modelos.

Las redes neuronales profundas suelen rendir mejor cuando cuentan con grandes cantidades de ejemplos. Por eso, el crecimiento del llamado Big Data fue una pieza fundamental para su éxito.

Modelos que antes no podían mostrar todo su potencial empezaron a destacar cuando se los entrenó con millones de datos.

2.19 2012: AlexNet y el gran punto de inflexión

Si hubiera que señalar un momento simbólico del triunfo moderno del Deep Learning, ese momento sería 2012. En ese año, Alex Krizhevsky, Ilya Sutskever y Geoffrey Hinton presentaron AlexNet en la competencia ImageNet.

ImageNet era un desafío de clasificación de imágenes a gran escala. AlexNet logró una mejora sorprendente respecto de otros métodos y demostró de manera contundente que las redes profundas, entrenadas con GPU y grandes volúmenes de datos, podían superar ampliamente a las técnicas dominantes de ese momento.

Este resultado tuvo un impacto enorme en la comunidad científica y en la industria. A partir de entonces, las redes neuronales profundas dejaron de ser una promesa para convertirse en la tecnología líder en visión por computadora.

AlexNet no fue solo un buen modelo. Fue la prueba práctica de que las redes profundas podían cambiar todo el campo de la inteligencia artificial aplicada.

2.20 Después de AlexNet: una aceleración imparable

Tras el éxito de AlexNet, la investigación avanzó con enorme velocidad. Aparecieron arquitecturas más profundas, más precisas y más eficientes. Algunas de las más influyentes fueron:

VGG: mostró la utilidad de redes muy profundas con estructuras simples.
GoogLeNet/Inception: introdujo diseños más eficientes y módulos especializados.
ResNet: resolvió mejor el entrenamiento de redes extremadamente profundas mediante conexiones residuales.

Estas arquitecturas consolidaron el Deep Learning en visión artificial y mostraron que la profundidad bien diseñada podía traducirse en mejoras sustanciales de rendimiento.

2.21 La expansión a voz, texto y secuencias

Mientras las redes convolucionales dominaban la visión por computadora, otras arquitecturas avanzaban en problemas secuenciales. Las redes recurrentes y las LSTM tuvieron un rol central en reconocimiento de voz, traducción automática y análisis de texto.

Más adelante, la introducción del mecanismo de atención y posteriormente de los transformers cambió radicalmente el procesamiento del lenguaje natural.

Esto muestra algo muy importante en la evolución histórica: las redes neuronales no crecieron solo en una dirección. Fueron dando origen a múltiples familias de arquitecturas, cada una adaptada a distintos tipos de datos y problemas.

2.22 2017 en adelante: transformers y nueva etapa de la IA

En 2017, el artículo Attention Is All You Need propuso la arquitectura Transformer, que transformó el procesamiento del lenguaje natural. En lugar de depender solo de mecanismos recurrentes, el modelo utilizaba atención para relacionar diferentes partes de una secuencia de forma más eficiente.

Este avance dio lugar a modelos de lenguaje cada vez mayores y más potentes, capaces de traducir, resumir, responder preguntas, generar texto e incluso programar.

Con el tiempo, la influencia de los transformers se extendió más allá del texto y llegó también a visión por computadora, audio y modelos multimodales.

2.23 ¿Qué factores explican la evolución de las redes neuronales?

Si observamos toda la historia, el progreso de las redes neuronales puede explicarse por la combinación de varios factores:

Mejores ideas matemáticas: perceptrón, backpropagation, convoluciones, recurrencia, atención.
Mayor capacidad de cómputo: CPU más rápidas, GPU, TPU y hardware especializado.
Más datos: grandes bases de imágenes, audio, texto y registros digitales.
Mejores herramientas de software: bibliotecas como TensorFlow y PyTorch facilitaron el desarrollo.
Mayor inversión científica e industrial: universidades y empresas aceleraron la investigación y la aplicación práctica.

El Deep Learning actual no puede entenderse como el resultado de un único descubrimiento. Es el producto de décadas de evolución acumulada.

2.24 Línea de tiempo resumida

Período	Hito	Importancia
1943	McCulloch y Pitts	Primer modelo matemático de neurona artificial.
1949	Hebb	Introduce la idea de aprendizaje basado en el fortalecimiento de conexiones.
1957	Perceptrón	Primer modelo con aprendizaje automático simple.
1969	Minsky y Papert	Señalan limitaciones del perceptrón de una sola capa.
Década de 1980	Backpropagation	Permite entrenar redes multicapa de forma efectiva.
1997	LSTM	Mejora el aprendizaje en secuencias y series temporales.
1998	LeNet	Éxito temprano de las CNN en reconocimiento de dígitos.
2006	Renacimiento del Deep Learning	Vuelve el interés por redes con muchas capas.
2012	AlexNet	Gran punto de inflexión en visión por computadora.
2017 en adelante	Transformers	Impulsan una nueva etapa en lenguaje natural y modelos generativos.

2.25 Qué nos enseña esta historia

La historia de las redes neuronales deja varias enseñanzas valiosas:

Una buena idea puede adelantarse a su tiempo.
Los límites tecnológicos pueden frenar durante años un campo prometedor.
Los avances verdaderos suelen surgir cuando teoría, datos y hardware se combinan.
La investigación científica no avanza en línea recta: hay ciclos de auge, crítica, estancamiento y renacimiento.

Esto también ayuda a mirar el presente con más criterio. Lo que hoy parece definitivo también puede evolucionar, ser reemplazado o transformarse con nuevas ideas.

2.26 Relación con PyTorch y con este curso

En este curso trabajaremos con PyTorch, una herramienta moderna que simplifica enormemente la construcción y el entrenamiento de redes neuronales. Pero detrás de cada línea de código que escribamos hay décadas de historia.

Cuando en los próximos temas construyamos una red neuronal, definamos funciones de activación, entrenemos con gradientes o usemos GPU, estaremos utilizando ideas que fueron desarrolladas y perfeccionadas a lo largo de muchos años.

Conocer esta evolución no es solo cultura general: ayuda a entender por qué hoy hacemos las cosas de cierta manera y por qué ciertas técnicas se volvieron esenciales.

2.27 Qué debes recordar de este tema

Las redes neuronales surgieron inspiradas en una versión simplificada del funcionamiento del cerebro.
El modelo de McCulloch y Pitts fue uno de los primeros pasos teóricos.
El perceptrón introdujo la idea de aprendizaje automático en una neurona artificial.
Las limitaciones del perceptrón frenaron el campo durante un tiempo.
El backpropagation permitió entrenar redes multicapa y reactivó la investigación.
El gran auge moderno fue posible gracias a más datos, GPU y mejores algoritmos.
AlexNet en 2012 marcó un punto de inflexión decisivo.
Los transformers abrieron una nueva etapa en el desarrollo de modelos avanzados.

2.28 Conclusión

La historia de las redes neuronales es la historia de una idea que tardó décadas en desplegar todo su potencial. Desde modelos teóricos muy simples hasta sistemas capaces de aprender patrones complejos en imágenes, texto y audio, el camino ha sido largo y lleno de desafíos.

Esta evolución muestra que el Deep Learning no apareció de repente. Es el resultado de una construcción acumulativa en la que participaron matemáticos, neurocientíficos, informáticos e ingenieros.

En el próximo tema seguiremos profundizando en los conceptos que distinguen al Deep Learning del Machine Learning tradicional, para entender mejor por qué las redes neuronales se volvieron tan relevantes en la inteligencia artificial moderna.

Volver al índice