#SORA es impresionante, pero ¿Por qué?. ¿Qué detalles lo hacen diferente para conseguir estos resultados?
Voy a intentar explicarlo basándome en la única publicación oficial que ha hecho OpenAI sobre este modelo.
https://openai.com/research/video-generation-models-as-world-simulators?ref=upstract.com
Hemos visto en muchas publicaciones que una de las cosas que más impresiona de SORA es como logra mantener la coherencia de los objetos y personajes a lo largo de los videos.
Puede simular la acción de pintar en un lienzo o comer, donde los cambios en el estado de los objetos se mantienen a lo largo del tiempo.
Pues según la publicación me debo centrar en dos aspectos fundamentales.
El concepto de difusión y el operar en códigos latentes. ¿Qué es esto?
Vamos a ello con un ejemplo.
Pensemos en un escultor que es conocido por crear impresionantes y detalladas figuras a gran escala. Cada escultura es única, capturando una complejidad y una belleza que fascinan a todos los que las ven. Sin embargo, el escultor enfrenta a un desafío: compartir su arte con un público más amplio, pero el tamaño y complejidad de sus obras las hacen difíciles de transportar y exhibir en espacios limitados.
Primero, estudia cuidadosamente sus propias esculturas grandes, identificando las características esenciales que definen cada obra: las líneas, las curvas, la expresión y la emoción que cada figura transmite. Luego, aplica este conocimiento para crear versiones en miniatura de sus esculturas. Estas miniaturas no son simplemente versiones reducidas; son reimaginaciones que capturan la esencia de las originales en una escala mucho más pequeña. A pesar de su tamaño reducido, cada miniatura mantiene la integridad artística y el impacto visual de la escultura original.
SORA comprime los datos visuales (videos e imágenes) en un espacio latente de menor dimensión. Este espacio latente captura la información esencial necesaria para reconstruir o generar un contenido visual nuevo.
¿De donde sale ese contenido original?. Del concepto de difusión.
Nuestro escultor quiere crear una serie de obras que no solo sean réplicas de sus esculturas existentes, sino creaciones nuevas que mantengan su estilo y esencia artística. En lugar de esculpir directamente desde bloques de mármol, decide experimentar con una técnica revolucionaria.
Una sustancia que puede ser gradualmente removida para revelar la forma deseada. Este material inicial es opaco y sin forma, el escultor aplica un disolvente especial que poco a poco, disuelve la nueva sustancia, permitiendo que la figura emerja del bloque.
En cada aplicación del disolvente, se revelan más detalles, desde formas generales hasta finas texturas y expresiones. Este proceso es iterativo y controlado; el escultor tiene la visión final en mente, pero la obra emerge gradualmente a través de un equilibrio entre el azar introducido por el material y la guía experta del artista.