El gran desafío de los datos en los modelos de lenguaje.
Detrás de la probabilidad, de los tokens, de las predicciones e incluso de ese supuesto “razonamiento” de los grandes modelos del lenguaje que conocemos y usamos actualmente, se esconde un pilar fundamental, DATOS.
¿Qué haremos cuando los modelos ya no tengan más datos útiles que consumir?
La investigación «Will we run out of data? Limits of LLM scaling based on human-generated data», liderada por Pablo Villalobos y un equipo de expertos, aborda este problema desde una perspectiva muy interesante. Según sus hallazgos, los modelos actuales se entrenan con datos públicos generados por humanos, como textos de páginas web o publicaciones en redes sociales. Sin embargo, proyectan que entre 2026 y 2032 el «stock» de datos disponibles podría agotarse si las tendencias actuales continúan.
✍ https://arxiv.org/abs/2211.04325
Los modelos son como un coche eléctrico, su batería (los algoritmos) es sofisticada, pero sin electricidad (los datos), no importa cuán avanzado sea, el coche no puede moverse. Los LLMs necesitan cantidades masivas de datos para aprender y mejorar, pero no todos los datos son iguales: no es lo mismo alimentar al coche con energía limpia y eficiente que con electricidad de mala calidad que lo desgaste.
En este caso, los datos «eficientes» podrían ser textos de alta calidad como artículos científicos o libros, mientras que la «electricidad de mala calidad» sería contenido redundante o irrelevante, como comentarios breves en redes sociales. Esta diferencia en calidad, junto con el crecimiento exponencial en la demanda de datos, nos ha puesto en ALERTA
El equipo de esta investigación plantea diferentes estrategias para abordar esta situación, aunque «no todo vale en el mundo del dato»
Es cierto que los LLMs podrían empezar a «escribir» su propio material, generando textos sintéticos para entrenarse. Es como si un escritor creara nuevos libros basándose en sus lecturas previas. Pero hay riesgos: si los modelos generan demasiados datos repetitivos o poco variados, podrían perder la llamada diversidad artificial, un problema conocido como «homogeneización de datos».
Otra opción que se plantea es diversificar el aprendizaje: además de leer textos, los modelos podrían «mirar» imágenes o «escuchar» audio, algo que ya se está haciendo desde la entrada de la multimodalidad.
Finalmente, una de las alternativas que propone la investigación es la que a mi parecer nos puede provocar el mayor peligro a medio/largo plazo.
Acceder a datos cerrados, es decir «Explorar archivos privados».
Fuentes de datos, como redes sociales o mensajería privada, contienen cantidades masivas de información
Simplemente de que se puedan plantear opciones como esta, nos sitúa en una realidad con aún mayor incertidumbre sobre nuestra privacidad, identidad y control de nuestras vidas
💡¿Hasta qué punto es ético cruzar esa línea?
La IA se queda SIN PALABRAS
El gran desafío de los datos en los modelos de lenguaje. Detrás de la probabilidad, de los tokens, de las predicciones e incluso de ese supuesto “razonamiento” de los grandes modelos del lenguaje que conocemos y usamos actualmente, se esconde un pilar fundamental, DATOS. ¿Qué haremos cuando los modelos ya no tengan más datos útiles…