Genie: todo lo que necesitas saber sobre la IA de Google que transforma imágenes en videojuegos

Tenemos un artículo previo con información general sobre Genie, la IA de Google que transforma indicaciones de texto en videojuegos 2D. Hoy vamos a entrar en detalles y analizar esta IA generativa. ¿Como funciona? Cuáles son las ventajas ? ¿Hay alguna mejora que hacer? ¡Explicaciones!

El poder de evasión e inmersión en un universo totalmente ajeno a nuestra realidad cotidiana es uno de los atractivos fundamentales de los videojuegos. Ahora imagina que tienes la capacidad de diseñar tú mismo este mundo imaginario desde cero. Esto es precisamente lo que permitirá Genie, el nuevo avance tecnológico de los científicos de Google DeepMind. Gracias a esta revolucionaria herramienta tendrás la posibilidad de Da forma y da vida a tu propio universo ficticio.con paisajes y atmósferas tan únicos como los de los videojuegos con gráficos más llamativos y elaborados.

¿Qué necesitas saber sobre Genie?

Genie representa una nueva y revolucionaria forma de inteligencia artificial generativa. Permite a todos, incluso a los más jóvenes, imaginar y explorar mundos inmersivos generados de forma similar a los entornos simulados habitualmente diseñados por creadores humanos. Según un artículo publicado por el equipo de Google DeepMind, con unas sencillas instrucciones, esta nueva IA generativa es capaz de modelar una amplia diversidad de universos interactivos y controlable por el usuario.

Si bien muchos modelos de IA generativa existentes ya producen contenido creativo en forma de texto, imágenes o incluso vídeos, con Genie Google ha irrumpido en una nueva área. Esta es la primera vez después de ChatGPT, Midjourney AI o Claude AI que la inteligencia artificial no puede generar ni una imagen ni un textosino más bien un entorno virtual interactivo.

Genie se distingue de sus predecesores por su enfoque innovador y único. En lugar de recibir entrenamiento mediante instrucciones explícitas, este sistema de inteligencia artificial de vanguardia aprende mediante observación utilizando un gran conjunto de datos de video sin etiquetar. Su impresionante base de aprendizaje incluye nada menos que 200.000 horas de secuencias de vídeo, principalmente de juegos de plataformas 2D.

Al analizar y discernir patrones, comportamientos e interacciones dentro de estos numerosos videos, Genie puede trascender las limitaciones tradicionales de la IA generativa. Su proceso de aprendizaje profundo le permite generar entornos de juego inmersivos e interactivos a partir de un mínimo de elementos de entrada proporcionados por el usuario.

No es necesario un álbum completo, ¡solo una imagen es suficiente!

El punto fuerte distintivo de Genie reside en su capacidad sin precedentes para modelar universos virtuales interactivos y jugables completamente nuevos, en tomando una imagen de entrada simple como único punto de partida. Esta característica abre la puerta a nuevas formas de diseñar y explorar mundos digitales inmersivos.

Para demostrar esta hazaña, los investigadores de DeepMind utilizaron una imagen generada por el modelo de texto a imagen Imagen 2 como base para crear un entorno virtual explorable completo. Un simple boceto también puede servir como trampolín para que Genie dé a luz a un universo jugable creado en DeepMind.

Según los equipos de Google DeepMind, su IA no se limita a universos ya conocidos. Por el contrario, se le puede llevar a generar entornos virtuales a partir de imágenes que le son completamente nuevas. Si lo son fotografías, bocetos o cualquier otra representación del mundo realGenie tiene la capacidad de transformarlos en parques digitales interactivos en los que el usuario puede sumergirse y evolucionar.

Esta capacidad de crear “mundos básicos” completamente nuevos a partir de elementos visuales arbitrarios demuestra la gran versatilidad de Genie. Para ello, el modelo tiene fue entrenado utilizando un enfoque genérico en un gran corpus de datos de video particularmente de juegos de plataformas 2D y simulaciones robóticas.

El proceso de generación del juego en Genie se divide en tres fases distintas con funciones complementarias. Sobre todo está lo que llamamos el tokenizador de vídeo. Esto juega un papel básico y descompone datos de vídeo complejos en elementos más simples y manipulables, en otras palabras, tokens. Este paso se refiere a la forma en que un chef prepara meticulosamente sus ingredientes.

Sólo después de la preparación de los elementos se modelo de acción latente analiza las transiciones entre imágenes. Es a través de este proceso que Genie puede identificar acciones fundamentales para el juego. En particular, determinadas acciones como saltar, correr o interactuar con elementos. Podemos compararlo con un conocedor culinario que detecta los sabores clave para preparar una buena comida.

El tercer y último paso consiste en predecir las siguientes imágenes basándose en interacciones comunes. Esto es lo que da lugar a una experiencia de juego fluida y dinámica. También podemos comparar esta fase con un chef creativo orquestando un plato.

Sí, Genie tiene un potencial enorme y presenta un avance significativo en el campo de la inteligencia artificial y la IA generativa. Pero como todos los demás modelos, todavía tiene ciertas limitaciones. Es decir, la limitación de la calidad visual, pero también la restricción del acceso.

Como señaló Jaspreet Bindra, fundador de TechWhisperer UK: “La IA generativa es una herramienta creativa y generativa superpoderosa que puede democratizar la programación. Google ha ido un paso más allá con Genie AI para crear juegos 2D mediante indicaciones de texto. El nivel visual aún no coincide con los juegos existentes.pero es un claro paso en esa dirección”.

IA del genio de Google

Cuando el genio se enfrenta a un bloqueo…

Sin embargo, tenga en cuenta que Genie todavía se encuentra en la etapa de proyecto de investigación. Por lo tanto, esta IA no permite, por el momento, generar videojuegos de alta calidad visual.

De hecho, el modelo fue entrenado con videos de Resolución muy baja (160 x 90 píxeles) a sólo 10 fotogramas por segundo.. Como resultado, los entornos virtuales generados sufren esta misma limitación. Por lo tanto, se limitan a una resolución deficiente y una velocidad de fotogramas muy baja de 1 fps durante una duración máxima de 16 segundos.

Sin embargo, la prueba de concepto se llevó a cabo con éxito con esta primera versión. Por lo tanto, podemos esperar razonablemente que las futuras iteraciones de esta IA de Google, impulsadas por datos de vídeo de mucha mayor calidad y mayores capacidades informáticas, lograr resoluciones visuales y rendimiento significativamente mayores para estos mundos virtuales generados por IA.

Por ahora, si la idea es prometedora, Genie sigue siendo un prototipo de investigación para Resultados aún modestos en términos de renderizado de gráficos y fluidez del juego.. Pero ya se han sentado las bases de una herramienta revolucionaria de construcción del mundo.

    Comparte el artículo:

Nuestro blog está impulsado por lectores. Cuando compra a través de enlaces en nuestro sitio, podemos ganar una comisión de afiliado.

CategoríasIA