El origen de la IA Generativa en 1951

Un paper de 8 hojas y con más de 70 años es el origen de la IA Generativa que actualmente conocemos. ¿Increible?, no . Son matemáticas En 1951, Solomon Kullback y Richard Leibler publicaron una investigación que, en su momento, parecía puramente teórica: On Information and Sufficiency.Hoy, esa fórmula —la divergencia KL— es el corazón…


Un paper de 8 hojas y con más de 70 años es el origen de la IA Generativa que actualmente conocemos. ¿Increible?, no . Son matemáticas

En 1951, Solomon Kullback y Richard Leibler publicaron una investigación que, en su momento, parecía puramente teórica: On Information and Sufficiency.
Hoy, esa fórmula —la divergencia KL— es el corazón de muchos de los modelos que generan imágenes, textos o sonidos con IA

Kullback y Leibler propusieron una manera de medir la diferencia entre dos distribuciones de probabilidad. Es decir, ofrecieron un método para saber cuánto se «pierde» cuando se usa una distribución aproximada para describir la realidad. Esta diferencia se conoce como divergencia KL

https://projecteuclid.org/journals/annals-of-mathematical-statistics/volume-22/issue-1/On-Information-and-Sufficiency/10.1214/aoms/1177729694.full

Esta idea simple —medir cuánta información se pierde— se ha convertido en un pilar esencial de los modelos generativos, en especial de los autoencoders variacionalespropuestos décadas más tarde por Kingma y Welling en 2013

Técnicamente, la divergencia KL compara una distribución real (por ejemplo, cómo realmente son los datos) con una distribución aproximada (la que modela la IA). El objetivo es que esta diferencia sea la menor posible

Si tienes que contarle a alguien cómo es una ciudad que no conoce y usas una guía turística genérica, la persona se llevará una imagen vaga. Pero si la guía es precisa y específica, la persona podrá imaginarla casi perfectamente. La divergencia KL mide cuánto de buena es esa guía

En IA, usamos esta idea para que un modelo aprenda a imitar la realidad: caras, voces o textos.
Y para lograrlo, necesitamos darle una representación interna (un “mapa”) que se parezca lo máximo posible a los datos reales.

Aquí entran los autoencoders variacionales, una arquitectura de red neuronal que funciona en dos partes:

Codificador: toma un dato real (por ejemplo, una imagen) y lo “comprime” en una versión más simple: un conjunto de números llamado «representación latente». Es como reducir una foto a unas pocas instrucciones.

Decodificador: toma esas instrucciones comprimidas y reconstruye la imagen original.

La gracia está en que, durante el entrenamiento, el sistema aprende a comprimir de manera inteligente, de forma que luego pueda generar nuevas combinaciones de esas instrucciones para crear imágenes nuevas que no estaban en el dataset original.

¿Y la divergencia KL?, es la que ayuda a equilibrar el proceso.
Evita que el sistema simplemente memorice imágenes y, en cambio, le obliga a aprender una distribución general del tipo de imágenes que ha visto.

Volvamos al ejemplo de la guia: si el modelo solo copia rutas específicas, no puede improvisar. Pero si entiende la estructura general de las calles, puede inventar nuevas ciudades plausibles.

Y todo comenzó con una simple pregunta matemática:
¿cómo medimos la diferencia entre lo que creemos y lo que es real?

Fuente: djalil.chafai.net