Connect with us

Gemini Robotics : La génération d’agents physiques

Gemini Robotics la génération d’agents physiques

Robotique

Gemini Robotics : La génération d’agents physiques

L’intelligence artificielle franchit une nouvelle étape décisive avec l’arrivée de Gemini Robotics, une famille de modèles conçus non seulement pour comprendre le monde, mais aussi pour y agir de manière autonome. Alors que les modèles de langage classiques restent cantonnés à des échanges textuels, Gemini Robotics ouvre la voie à une nouvelle ère, celle des agents IA physiques, capables de percevoir, raisonner, planifier et exécuter des tâches dans le monde réel. Cette avancée, portée par Google DeepMind et Google AI, marque un tournant majeur vers des robots plus intelligents, plus adaptables… et surtout plus utiles au quotidien.

Du langage à l’action, à partir d’une demande vocale et de la localisation (San Francisco), Gemini Robotics-ER 1.5 planifie et contrôle le robot pour trier correctement compost, recyclage et ordures. Source [1] 

Deux cerveaux pour un robot intelligent

À la base de cette révolution se trouvent deux modèles complémentaires : Gemini Robotics-ER 1.5 et Gemini Robotics 1.5. Le premier, Gemini Robotics-ER 1.5, joue le rôle de « cerveau stratégique ». Il s’agit d’un modèle de raisonnement incarné (embodied reasoning) spécialisé dans la compréhension spatiale, la planification à long terme et l’appel d’outils externes (comme une recherche Google pour connaître les règles locales de tri des déchets). Il comprend des instructions en langage naturel, décompose une tâche complexe en étapes simples, et orchestre l’ensemble du processus.

Le second, Gemini Robotics 1.5, est un modèle vision langage action (VLA). Il reçoit les instructions détaillées du cerveau stratégique et les traduit en commandes motrices précises pour le robot. Ce modèle ne se contente pas d’exécuter, il « pense » aussi avant d’agir, en générant une chaîne de raisonnement interne qui lui permet d’adapter ses gestes à la situation. Par exemple, face à la consigne « trie le linge par couleur », il comprend non seulement ce qu’est une couleur, mais aussi comment manipuler délicatement un pull rouge pour le placer dans le bon panier.

Compréhension spatiale et Apprentissage à travers incarnation

Ce qui distingue Gemini Robotics des approches précédentes, c’est sa capacité à combiner perception fine, raisonnement temporel et exécution robuste. Grâce à une compréhension spatiale de pointe, Gemini Robotics-ER 1.5 peut localiser avec précision des objets dans une image (sous forme de coordonnées normalisées), identifier leur état (ouvert/fermé, plein/vide), ou même décrire une séquence d’actions dans une vidéo avec un découpage temporel précis. Ces capacités sont essentielles pour que le robot comprenne non seulement ce qui est là, mais aussi ce qui s’est passé et ce qu’il doit faire ensuite.

Autre innovation majeure, Gemini Robotics 1.5 apprend « à travers les corps ». Cela signifie qu’il peut transférer des compétences acquises sur un type de robot (par exemple un bras robotique ALOHA 2) à un robot complètement différent (comme le robot humanoïde Apollo d’Apptronik), sans ré-entraînement spécifique [1]. On parle d’apprentissage à travers incarnation. Cette généralisation accélère considérablement le développement de nouveaux comportements robotiques et ouvre la voie à des systèmes plus polyvalents.

Vers des robots utiles, responsables et accessibles

Google met d’ores et déjà Gemini Robotics-ER 1.5 à disposition des développeurs via Google AI Studio et l’API Gemini, en version préliminaire. Cela permet à la communauté de commencer à expérimenter avec ce « cerveau » de haut niveau pour créer des agents physiques capables de gérer des tâches du quotidien : ranger une table, trier des déchets, préparer un café, etc. Ces scénarios, simples en apparence, nécessitent en réalité une combinaison subtile de perception, de raisonnement contextuel et de coordination motrice, exactement ce que Gemini Robotics rend désormais possible.

Bien sûr, l’arrivée d’agents IA dans le monde physique soulève des questions de sécurité. Google insiste sur une approche « en couches », combinant filtres logiciels, raisonnement sémantique sur les risques, et systèmes de sécurité matériels (comme les arrêts d’urgence). Le modèle a également été évalué sur une version améliorée du benchmark ASIMOV, dédié à la sécurité sémantique en robotique.

Comparaison de modèles selon la généralité (axe x) et le raisonnement incarné (axe y). Bleu : modèles Gemini ; blanc : modèles GPT. Gemini Robotics-ER 1.5 (Thinking On) obtient le meilleur score en raisonnement incarné, GPT-5 la plus grande généralité.
Comparaison de modèles selon la généralité (axe x) et le raisonnement incarné (axe y). Bleu : modèles Gemini, blanc : modèles GPT. Gemini Robotics-ER 1.5 (Thinking On) obtient le meilleur score en raisonnement incarné, GPT-5 la plus grande généralité. Source [2] 

L’ère des agents IA physique

Gemini Robotics ne se contente pas d’améliorer les performances des robots, il redéfinit leur rôle. Plutôt que de simples exécutants programmés, on entre dans l’ère des agents IA physiques autonomes, capables de comprendre des intentions humaines complexes et d’y répondre de façon adaptative. À plus long terme, cette technologie pourrait transformer des secteurs entiers, logistique, assistance à domicile, maintenance industrielle, tout en rapprochant l’IA de notre quotidien tangible.

[1] Gemini Robotics 1.5 brings AI agents into the physical world

[2] Building the Next Generation of Physical Agents with Gemini Robotics-ER 1.5

Gemini Robotics Team, Abeyruwan, S., Ainslie, J., Alayrac, J.-B., Gonzalez Arenas, M., Armstrong, T., Balakrishna, A., Baruch, R., Bauza, M., Blokzijl, M., Bohez, S., Bousmalis, K., Brohan, A., Buschmann, T., Byravan, A., Cabi, S., Caluwaerts, K., Casarini, F., Chang, O., … Zhou, Y. (2025). Gemini Robotics: Bringing AI into the Physical World. arXiv.

Continue Reading
Vous aimerez peut-être...
Franck da COSTA

Ingénieur en génie logiciel, j’aime transformer la complexité de l’IA et des algorithmes en savoirs accessibles. Curieux de toutes les avancées en recherche, je partage ici mes analyses, projets et idées. Je serai également ravi de collaborer sur des projets novateurs avec celles et ceux qui partagent la même passion.

Cliquez pour commenter

Leave a Reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Plus en Robotique

Haut