Deep Learning - 9. Función de pérdida (Loss Function)

9.1 Introducción

Cuando una red neuronal realiza una predicción, necesitamos alguna manera de medir si esa predicción fue buena o mala. Esa medición es fundamental porque el modelo no puede mejorar si no sabe qué tan equivocado está.

La herramienta que cumple ese papel se llama función de pérdida, o en inglés, loss function. Su tarea es cuantificar el error entre lo que la red predijo y lo que realmente debería haber predicho.

En este tema veremos qué es una función de pérdida, por qué es tan importante y cuáles son las más utilizadas según el tipo de problema.

9.2 ¿Qué es una función de pérdida?

Una función de pérdida es una función matemática que recibe la salida predicha por el modelo y la compara con el valor real o esperado. El resultado de esa comparación es un número que representa el nivel de error.

La idea general es simple:

Si la predicción es muy buena, la pérdida será pequeña.
Si la predicción es mala, la pérdida será grande.

De este modo, la red neuronal obtiene una señal clara sobre qué tan lejos está de la respuesta correcta.

9.3 Por qué es tan importante

La función de pérdida es una pieza central del aprendizaje automático porque guía el proceso de entrenamiento. Sin una medida del error, la red no tendría forma de saber en qué dirección ajustar sus parámetros.

Podemos decir que la pérdida actúa como una especie de "brújula" del aprendizaje:

Le dice al modelo si va bien o mal.
Le indica cuánto error está cometiendo.
Permite corregir los pesos para mejorar en iteraciones futuras.

Idea clave: la red aprende intentando minimizar la función de pérdida.

9.4 Relación con la propagación hacia adelante

En el tema anterior vimos que la propagación hacia adelante produce una predicción. Pero esa predicción, por sí sola, no alcanza para entrenar el modelo. Necesitamos compararla con la respuesta correcta.

Ese es precisamente el momento en el que interviene la función de pérdida:

La red realiza forward propagation.
Obtiene una salida.
La función de pérdida compara esa salida con el valor real.
Se genera un valor numérico de error.

Luego ese error se utilizará para corregir los parámetros del modelo.

9.5 Un ejemplo intuitivo

Supongamos que una red neuronal debe predecir el precio de una casa. El valor real es 200000, pero la red predice 180000.

La función de pérdida se encarga de medir qué tan grave es esa diferencia de 20000. Si la red predijera 199500, la pérdida sería mucho menor. Si predijera 100000, la pérdida sería mucho mayor.

Esto permite expresar matemáticamente la calidad de la predicción.

9.6 Error vs pérdida

A veces los términos error y pérdida se usan de manera parecida, pero conviene hacer una distinción conceptual:

El error es la diferencia general entre la predicción y el valor real.
La pérdida es la forma matemática específica en que elegimos medir ese error.

Por ejemplo, el error podría ser una diferencia numérica directa, mientras que la pérdida podría usar el cuadrado de esa diferencia o una fórmula probabilística.

9.7 Una sola pérdida por ejemplo

En muchos casos, la función de pérdida se calcula primero para cada ejemplo individual. Es decir, cada dato procesado por la red produce su propia pérdida.

Luego, cuando se trabaja con varios ejemplos juntos, esas pérdidas suelen combinarse mediante un promedio o una suma.

Esto permite obtener una medida global del rendimiento del modelo en un conjunto de ejemplos.

9.8 Pérdida y lote de datos

Durante el entrenamiento, las redes neuronales suelen procesar los datos en pequeños grupos llamados batches o lotes. La pérdida se calcula para cada ejemplo del lote y luego se obtiene una pérdida promedio del batch.

Esa pérdida promedio es la que normalmente se utiliza para actualizar los parámetros.

Esto hace más estable y eficiente el entrenamiento.

9.9 No todas las tareas usan la misma pérdida

La función de pérdida depende del tipo de problema. No se usa la misma en regresión que en clasificación, porque la naturaleza de las salidas es diferente.

Por ejemplo:

En regresión, queremos medir la diferencia entre valores numéricos.
En clasificación, queremos medir qué tan bien el modelo asigna probabilidades o clases correctas.

Elegir la pérdida adecuada es una parte muy importante del diseño del modelo.

9.10 Pérdidas para regresión

En problemas de regresión, el objetivo es predecir un valor numérico continuo, como:

Precio de una vivienda
Temperatura futura
Demanda estimada de un producto

En estos casos, las funciones de pérdida suelen centrarse en medir la distancia entre el valor predicho y el valor real.

9.11 Error cuadrático medio (MSE)

Una de las funciones de pérdida más usadas en regresión es el Error Cuadrático Medio, conocido como MSE por sus siglas en inglés (Mean Squared Error).

La idea consiste en:

Calcular la diferencia entre la predicción y el valor real.
Elevar esa diferencia al cuadrado.
Promediar los resultados.

Elevar al cuadrado tiene un efecto importante: penaliza más los errores grandes que los pequeños.

9.12 Intuición del MSE

Imaginemos dos predicciones:

Modelo A se equivoca por 2 unidades.
Modelo B se equivoca por 10 unidades.

Si elevamos al cuadrado:

El error de 2 se convierte en 4.
El error de 10 se convierte en 100.

Esto muestra que el MSE castiga mucho más los errores grandes. Esa característica puede ser útil cuando queremos que el modelo evite fallos muy grandes.

9.13 Ventajas y desventajas del MSE

Ventajas:

Es simple y muy utilizado.
Funciona bien en muchos problemas de regresión.
Penaliza fuertemente los errores grandes.

Desventajas:

Puede ser muy sensible a valores atípicos.
Unos pocos errores enormes pueden dominar el promedio.

9.14 Error absoluto medio (MAE)

Otra función muy conocida en regresión es el Error Absoluto Medio, o MAE (Mean Absolute Error).

En lugar de elevar el error al cuadrado, toma su valor absoluto. Es decir, mide la magnitud del error sin importar si fue por exceso o por defecto.

Por ejemplo, equivocarse por +5 o por -5 cuenta igual en el MAE.

9.15 Intuición del MAE

El MAE puede interpretarse como el error promedio en las mismas unidades del problema. Si estamos prediciendo precios y obtenemos un MAE de 10000, eso significa que, en promedio, el modelo se equivoca en unas 10000 unidades monetarias.

Esto hace que el MAE sea muy intuitivo para explicar resultados.

9.16 Ventajas y desventajas del MAE

Ventajas:

Es fácil de interpretar.
Es menos sensible que el MSE a valores atípicos extremos.

Desventajas:

No penaliza tan fuertemente los errores grandes.
En algunos contextos puede ser menos cómodo para optimizar.

9.17 Pérdidas para clasificación

En problemas de clasificación, la situación cambia. Ya no queremos medir solo una distancia numérica, sino evaluar si el modelo está asignando correctamente las clases o las probabilidades asociadas.

Por eso, para clasificación suelen usarse funciones de pérdida diferentes de las de regresión.

9.18 Entropía cruzada binaria

En clasificación binaria, una de las funciones más usadas es la entropía cruzada binaria, también llamada binary cross-entropy.

Se utiliza cuando el modelo debe decidir entre dos clases, por ejemplo:

Spam o no spam
Fraude o no fraude
Enfermo o sano

Esta pérdida compara la probabilidad predicha por el modelo con la clase real.

9.19 Intuición de la entropía cruzada binaria

Supongamos que la clase real es 1, es decir, un correo sí es spam.

Si el modelo predice 0.99, la pérdida será pequeña.
Si predice 0.60, la pérdida será mayor.
Si predice 0.01, la pérdida será muy grande.

Esto tiene sentido: mientras más segura y correcta sea la predicción, menor será la pérdida. Mientras más equivocada y segura sea en la dirección incorrecta, mayor será el castigo.

9.20 Entropía cruzada para clasificación multiclase

Cuando hay más de dos clases posibles, se suele usar una versión multiclase de la entropía cruzada, conocida simplemente como cross-entropy loss.

Por ejemplo, si una red debe decidir si una imagen es un gato, un perro o un caballo, la pérdida evalúa qué tan alta fue la probabilidad asignada a la clase correcta.

Si la red asigna mucha probabilidad a la clase real, la pérdida será pequeña. Si le asigna poca probabilidad, la pérdida será grande.

9.21 Por qué la entropía cruzada es tan usada

La entropía cruzada es muy popular porque se adapta muy bien a problemas de clasificación y funciona de manera natural cuando las salidas del modelo representan probabilidades.

Además, se integra bien con funciones de activación como Sigmoid y Softmax, que suelen usarse en la capa de salida para clasificación binaria y multiclase respectivamente.

9.22 La pérdida como objetivo matemático

Durante el entrenamiento, la red intenta encontrar valores de pesos y bias que hagan la pérdida lo más pequeña posible. Es decir, el problema de aprendizaje puede verse como un problema de optimización:

encontrar parametros que minimicen la funcion de perdida

Esto conecta directamente la función de pérdida con algoritmos como el descenso del gradiente, que estudiaremos a continuación.

9.23 Una pérdida pequeña no siempre significa perfección

Es importante no interpretar la pérdida de forma simplista. Que la pérdida sea pequeña suele ser una buena señal, pero no necesariamente significa que el modelo sea perfecto.

Por ejemplo:

Puede estar sobreajustado a los datos de entrenamiento.
Puede rendir bien en promedio, pero mal en ciertos casos importantes.
Puede necesitar otras métricas complementarias.

La pérdida es una medida central, pero no siempre es la única medida que conviene observar.

9.24 Diferencia entre pérdida y métrica

Esto nos lleva a una diferencia importante:

La función de pérdida guía el entrenamiento del modelo.
Las métricas sirven para evaluar el rendimiento desde una perspectiva más práctica.

Por ejemplo, en clasificación podemos entrenar con entropía cruzada pero evaluar con precisión, recall o F1-score.

En regresión podemos entrenar con MSE y luego interpretar también el MAE o el RMSE.

9.25 Un ejemplo completo de uso

Imaginemos una red que clasifica imágenes de dígitos escritos a mano del 0 al 9.

El proceso sería:

La red recibe una imagen.
Hace forward propagation y genera probabilidades para las 10 clases.
La función de pérdida compara esas probabilidades con la etiqueta correcta.
Si la probabilidad del dígito correcto es baja, la pérdida será alta.
Luego se ajustan los parámetros para mejorar la predicción futura.

Este esquema muestra con claridad el papel de la pérdida dentro del aprendizaje.

9.26 ¿Cómo se elige una función de pérdida?

La elección depende, ante todo, del tipo de problema:

Regresión: MSE, MAE u otras variantes.
Clasificación binaria: entropía cruzada binaria.
Clasificación multiclase: cross-entropy.

También pueden influir factores como la presencia de valores atípicos, el balance de clases o la necesidad de enfatizar ciertos tipos de errores.

9.27 Relación con PyTorch

En PyTorch, las funciones de pérdida están disponibles como componentes listos para usar. Por ejemplo, más adelante utilizaremos pérdidas como:

MSELoss para regresión.
BCELoss o variantes relacionadas para clasificación binaria.
CrossEntropyLoss para clasificación multiclase.

Cuando programemos modelos reales, verás que la función de pérdida es una de las decisiones más importantes al definir el entrenamiento.

9.28 Resumen comparativo de pérdidas comunes

Función de pérdida	Uso típico	Idea principal
MSE	Regresión	Promedia errores al cuadrado y castiga más los grandes.
MAE	Regresión	Promedia errores absolutos y es más interpretable.
Binary Cross-Entropy	Clasificación binaria	Compara probabilidades predichas con clases reales.
Cross-Entropy	Clasificación multiclase	Evalúa cuánto peso probabilístico se da a la clase correcta.

9.29 Qué debes recordar de este tema

La función de pérdida mide qué tan buena o mala fue una predicción.
Es la señal principal que guía el aprendizaje de la red.
La red aprende intentando minimizar la pérdida.
En regresión se usan pérdidas como MSE y MAE.
En clasificación se usan con frecuencia pérdidas basadas en entropía cruzada.
La pérdida se calcula después del forward propagation.
No debe confundirse pérdida con métrica de evaluación.
Elegir la pérdida correcta es una decisión clave del modelo.

9.30 Conclusión

La función de pérdida es uno de los conceptos más importantes del Deep Learning porque transforma la idea abstracta de "equivocarse" en un valor numérico concreto que puede optimizarse.

Entender la pérdida es comprender cómo una red sabe si va mejorando o no. A partir de aquí, el siguiente paso natural es estudiar el mecanismo que utiliza ese valor de pérdida para actualizar los parámetros del modelo: el descenso del gradiente.

Volver al índice