Imaginez pouvoir créer un monde virtuel en quelques secondes simplement en le décrivant avec des mots. Plus encore, imaginez pouvoir vous y promener, l’explorer comme si vous y étiez réellement, et voir cet univers s’adapter à vos actions en temps réel. C’est exactement ce que propose Genie 3, le nouveau modèle d’IA développé par Google DeepMind qui repousse les limites de ce qu’on appelle les « world models » [1] ou modèles de monde.
Qu’est-ce que Genie 3 et comment ça fonctionne ?
Genie 3 est un modèle d’intelligence artificielle généraliste capable de générer des environnements interactifs à partir de simples descriptions textuelles. Contrairement aux modèles de génération vidéo classiques qui produisent des séquences figées, Genie 3 crée des mondes dynamiques où vous pouvez naviguer librement. Le modèle génère le chemin devant vous en temps réel, à 24 images par seconde et en résolution 720p, tout en maintenant une cohérence visuelle pendant plusieurs minutes.
La magie de Genie 3 réside dans sa capacité à comprendre les lois physiques du monde réel. Il simule l’eau qui coule, les reflets de lumière, les interactions complexes entre objets et même les comportements d’animaux. Vous pouvez ainsi créer un écosystème forestier avec une faune diversifiée, explorer les ruines de la Grèce antique ou traverser un paysage volcanique à bord d’un robot à roues. Les possibilités sont quasi infinies.
Le système s’appuie sur une technologie d’auto-régression sophistiquée. Cela signifie que chaque nouvelle image générée prend en compte tout l’historique de votre exploration. Si vous revenez sur vos pas après une minute, Genie 3 se souvient de ce que vous avez vu précédemment et maintient la cohérence de l’environnement. Cette mémoire visuelle peut remonter jusqu’à une minute en arrière, ce qui représente une prouesse technique considérable.
Les capacités impressionnantes de Genie 3
Ce qui distingue vraiment Genie 3 de ses prédécesseurs comme Genie 1 et Genie 2, c’est sa capacité d’interaction en temps réel. Avec Genie 3, vous ne regardez plus simplement une vidéo générée par IA, vous explorez activement un monde qui se construit au fur et à mesure de vos déplacements. Le modèle peut simuler différentes perspectives, de la vue à la première personne à la vue à la troisième personne, selon vos préférences.
Comparaison de GameNGen, Geni 2 , Veo et Genie 3. Source [2]
Les applications possibles sont fascinantes. Genie 3 peut créer des environnements photoréalistes représentant des lieux réels comme Venise ou les Alpes, mais aussi des univers totalement fantastiques avec des créatures imaginaires évoluant sur des ponts arc-en-ciel. Le modèle excelle dans la modélisation de phénomènes naturels complexes, tempêtes côtières avec vagues déferlantes, fonds marins peuplés de méduses bioluminescentes, ou encore jardins zen japonais avec leurs détails raffinés.
Pour les chercheurs en intelligence artificielle, Genie 3 représente une avancée majeure dans l’entraînement d’agents autonomes. Google DeepMind a testé le modèle avec SIMA [3], leur agent généraliste pour environnements 3D virtuels. L’agent peut recevoir des objectifs à accomplir et naviguer dans les mondes créés par Genie 3 pour les atteindre, ouvrant la voie à des applications en robotique et systèmes autonomes.
Project Genie : l’accès grand public se précise
Google ne compte pas garder cette technologie dans ses laboratoires. Depuis fin janvier 2026, l’entreprise déploie Project Genie, un prototype expérimental accessible aux abonnés Google AI Ultra aux États-Unis. Cette application web permet à chacun de créer, explorer et remixer des mondes interactifs en utilisant des prompts textuels et des images.
L’interface propose trois fonctionnalités principales : le « World Sketching » pour dessiner son monde avec des mots et des images, l’exploration en temps réel avec génération dynamique du chemin, et le remixage permettant de partir de mondes existants pour créer de nouvelles interprétations. Les utilisateurs peuvent même télécharger des vidéos de leurs explorations virtuelles.
Les limites et l’avenir des modèles de monde
Malgré ses prouesses, Genie 3 connaît encore certaines limitations. Les environnements générés ne sont pas toujours parfaitement réalistes ou fidèles aux descriptions fournies. Les personnages peuvent parfois être difficiles à contrôler avec une latence dans les commandes. La durée d’interaction reste limitée à quelques minutes plutôt qu’à des heures d’exploration continue. Enfin, le rendu de texte clair et lisible dans les mondes générés demeure un défi.
Playing as the goat in Chagall's In My Country and zooming into the Monk in The Monk by the Sea by Caspar David Friedrich. pic.twitter.com/LIOyEZk0rr
Ces contraintes sont normales pour une technologie de pointe encore en développement. Google DeepMind continue d’améliorer le modèle et prévoit d’élargir l’accès à Project Genie dans d’autres territoires. L’équipe travaille notamment à enrichir l’espace d’actions possibles pour les agents et à perfectionner la simulation d’interactions entre plusieurs agents indépendants.
Genie 3 marque une étape décisive vers la simulation complète de mondes virtuels. Au-delà du divertissement, cette technologie pourrait révolutionner l’éducation, la formation professionnelle, la conception de jeux vidéo et même la recherche scientifique. En permettant de créer des environnements infinis sur demande, Genie 3 ouvre des perspectives fascinantes pour l’exploration virtuelle et l’apprentissage automatique. Un pas de plus vers des intelligences artificielles capables de naviguer dans la complexité du monde réel.
[1] Ha, D., & Schmidhuber, J. (2018, 27 mars). World models. arXiv. https://arxiv.org/abs/1803.10122
[3] SIMA Team, Abi Raad, M., Ahuja, A., Barros, C., Besse, F., Bolt, A., Bolton, A., Brownfield, B., Buttimore, G., Cant, M., Chakera, S., Chan, S. C. Y., Clune, J., Collister, A., Copeman, V., Cullum, A., Dasgupta, I., de Cesare, D., Di Trapani, J., … Young, N. (2024, 13 mars). Scaling instructable agents across many simulated worlds. arXiv. https://arxiv.org/abs/2404.10179