OpenAI presentó Sora, una herramienta para generar videos con IA, y es impresionante

El modelo, que todavía está en fase experimental, permite crear videos de hasta 60 segundos a partir de un prompt, con resultados realistas y convincentes.

Hace solo tres años, OpenAI sorprendía a todos con la presentación de Dall-E, el primer generador de imágenes que usaba inteligencia artificial. Hoy esos términos están hasta en la sopa, Microsoft quiere centrar Windows en la IA, Google lanzó Gemini 1.5Meta intenta dominar con su modelo, Adobe tiene Firefly, pero OpenAI volvió a asombrar con la presentación de Sora, un generador de videos hiper realista.

La herramienta todavía se halla en su versión experimental y no está disponible al público. Permite generar videos de hasta 60 segundos a partir de un texto o “prompt”, como lo hacen también los creadores de imágenes. Lo importante, claro, es la habilidad del usuario para generar prompts precisos para el modelo en cuestión.

De la descripción al video

En el video que está de portada, el prompt original es éste:

“A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about”.

En castellano, el texto dice: “Una elegante mujer camina por una calle de Tokio llena de cálidos neones brillantes y animada señalización urbana. Lleva una chaqueta de cuero negra, un vestido largo rojo, botas negras y un bolso negro. Lleva gafas de sol y lápiz de labios rojo. Camina con seguridad y despreocupación. La calle está húmeda y es reflectante, lo que crea un efecto espejo de las luces de colores. Muchos peatones caminan”.

La escena del video muestra la descripción con una precisión impresionante, hasta con cambios de planos.

Escenas complejas

El modelo, explicaron desde OpenAI, es capaz de generar escenas complejas con múltiples personajes. También se puede especificar el tipo de movimiento del sujeto y detalles precisos del entorno. “El modelo entiende no solo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico”, dice la compañía.

OpenAI añade que todos los vídeos publicados en la publicación de blog del anuncio de este nuevo modelo no han sido editados.

Por supuesto, como cualquier modelo de IA, Sora también tiene sus propias limitaciones e inconvenientes. La empresa afirma que “puede tener dificultades para simular con precisión la física de una escena compleja y puede no comprender instancias específicas de causa y efecto”.

El nuevo modelo, en este momento, solo se encuentra disponible para los investigadores de OpenAI, es decir, su funcionamiento está limitado a pruebas de laboratorio. Señalaron que estará disponible en el catálogo de productos de OpenAI, pero no antes de que se tomen varias medidas para garantizar la seguridad de los usuarios.

Teniendo en cuenta la velocidad con que se dan estos desarrollos y la ductilidad de los usuarios para adaptarse a ellos, ¿cuánto tardaremos en ver el videoclip de una banda hecho de esta manera? ¿Y un cortometraje? ¿Y una película completa? El futuro es una incógnita apasionante. (DIB) MM