OpenAI lanza Sora, un nuevo modelo de IA para conversión de texto a vídeo
OpenAI no solo se conoce como la empresa ChatGPT o incluso como LLM. En un enfoque innovador, OpenAI se lanza a la generación de vídeo con Sora, un modelo GenAI que transforma texto en vídeos 1080p. Este desarrollo tiene como objetivo ayudar a los usuarios a superar los desafíos de la interacción en el mundo real generando videos que se adhieren estrechamente a indicaciones específicas mientras mantienen una alta fidelidad visual.
El cofundador y director ejecutivo Sam Altman dijo en X (anteriormente Twitter) que fue un “momento notable”.
aquí está sora, nuestro modelo de generación de videos: https://t.co/CDr4DdCrh1
Hoy comenzamos a formar equipos rojos y ofrecemos acceso a un número limitado de creadores.@_tim_brooks @billpeeb @model_mechanic son realmente increíbles; Increíble trabajo de ellos y del equipo.
momento notable.
—Sam Altman (@sama) 15 de febrero de 2024
Aunque el producto aún no es oficialmente utilizable por la mayoría de personas debido a lo que Altman describió en su mensaje como “equipo rojo inicial“, es decir, de las pruebas opuestas de sus defensas de seguridad, sus fallas y sus malos usos, el fundador indicó que fue puesto a disposición de un “número limitado de creadores”, y la expansión pública está prevista para una fecha posterior.
Sora destaca por su capacidad para crear escenas dinámicas con diversos personajes, tipos de movimientos y detalles de fondo, prometiendo una inmersión a nivel cinematográfico. La plantilla también puede enriquecer los videoclips existentes, agregando detalles faltantes para una experiencia más completa.
Con un profundo conocimiento del lenguaje, Sora interpreta con precisión las solicitudes de los usuarios, dando vida a personajes expresivos y emociones vívidas.. Este modelo entiende la demanda no sólo en el contexto del lenguaje, sino también en su manifestación física real.
Sora es capaz de generar vídeos de hasta un minuto en una variedad de estilos, incluidos fotorrealistas, animados y en blanco y negro, evitando lo que podrían llamarse “peculiaridades de la IA” comunes a otras tecnologías de generación de texto a vídeo.
Mensaje: “Varios mamuts lanudos gigantes se acercan caminando a través de un prado nevado, su largo pelaje lanudo se mueve ligeramente con el viento mientras caminan, árboles cubiertos de nieve y espectaculares montañas cubiertas de nieve en la distancia, luz de media tarde con nubes tenues y un sol alto en la distancia… pic.twitter.com/Um5CWI18nS
—OpenAI (@OpenAI) 15 de febrero de 2024
Algunas limitaciones identificadas
Si bien Sora tiene capacidades impresionantes para generar escenas de video complejas y detalladas, también tiene problemas con la precisión de la simulación física y el reconocimiento de detalles en el espacio. Estos desafíos resaltan las limitaciones actuales del modelo para comprender y reproducir las complejidades de la física y las relaciones espaciales del mundo real.
OpenAI posiciona a Sora como un avance de la investigación, consciente del potencial de abuso de esta tecnología y trabajando activamente en el desarrollo de herramientas para detectar vídeos generados por Sora. La compañía planea colaborar con expertos, formuladores de políticas, educadores y artistas para explorar casos de uso positivos para esta tecnología, al tiempo que incluye metadatos de procedencia en las producciones generadas para garantizar un uso seguro y responsable de Sora.