Vous avez déjà rêvé de parler à une machine… en lui montrant une photo de votre chat et en lui demandant d’écrire un poème dessus ? Bienvenue dans le monde des VLM, ces modèles d’IA qui fusionnent la vision et le langage pour décrire, comprendre et parfois même créer ! Dans cet article, on va lever le voile sur leur fonctionnement, leurs méthodes d’entraînement et les différents types existants. Le tout expliqué simplement, avec juste ce qu’il faut de geek attitude pour vous donner envie de plonger dans l’univers des modèles vision-langage.
Qu’est-ce qu’un VLM ?
Un VLM (Vision-Language Model) est un modèle d’intelligence artificielle capable de comprendre et de manipuler à la fois des données visuelles (images, vidéos) et textuelles (phrases, questions, descriptions). Contrairement à un modèle de vision classique qui se contente de dire « ceci est un chien » avec un pourcentage de confiance, un VLM peut aller beaucoup plus loin, décrire la scène en détail, répondre à des questions sur ce qu’il voit ou même relier ce contenu visuel à des informations externes. En clair, c’est comme si l’IA disposait à la fois d’yeux et d’une bouche.
Les VLM ne sortent pas de nulle part, ils s’appuient sur un pré-entraînement vision-langage (VLP) qui leur apprend à relier pixels et mots grâce à des millions de paires image–texte. Une fois entraînés, ils peuvent réaliser une multitude de tâches : image captioning (génération de légendes), visual question answering (réponse à des questions sur une image)… et bien plus encore. Ce mélange de vision et de langage les rend particulièrement puissants pour des applications allant de l’e-commerce aux assistants intelligents, en passant par l’analyse scientifique.
Comment fonctionne un VLP ?
Un VLP (Vision-Language Pretraining) est la phase d’apprentissage qui donne à un futur modèle vision-langage la capacité de relier ce qu’il voit à ce qu’il lit. Pendant ce pré-entraînement, on alimente le modèle avec des millions (voire des milliards) de paires image–texte. L’image passe par un encodeur visuel (souvent Vision Transformer ou un réseau de neurones convolutionnel) qui la découpe en petites zones et transforme chaque partie en vecteur numérique. En parallèle, le texte associé est découpé en tokens par un tokenizer, puis transformé en vecteurs grâce à un encodeur de langage (type BERT ou T5).
La magie opère lorsque ces deux flux, visuel et textuel sont projetés dans un même espace de représentation. Le modèle apprend alors à rapprocher les vecteurs d’une image et de son texte correct, et à éloigner ceux qui ne correspondent pas. Pour y arriver, plusieurs tâches d’entraînement sont utilisées : image-text matching (deviner si l’image et le texte vont ensemble), masked language modeling (deviner des mots manquants grâce à l’image), ou encore masked region modeling (prédire ce qui se cache dans une partie de l’image grâce au texte). C’est cette étape de VLP qui donne aux VLM leur “intuition” multimodale, indispensable pour ensuite décrire, répondre ou créer.
VLM types pris depuis « Vision-Language Pre-training: Basics, Recent Advances, and Future Trends » de Zhe Gan, Linjie Li, Chunyuan Li, Lijuan Wang, Zicheng Liu et Jianfeng Gao sur arxiv
Les différents types de VLM
Tous les VLM ne font pas la même chose, et il existe plusieurs “familles” selon leur objectif principal. D’abord, on trouve les modèles descriptifs, spécialisés dans la compréhension et la génération de texte à partir d’images. Ils servent par exemple à produire des légendes (image captioning), résumer un article illustré (multimodal summarization), ou répondre à des questions sur une photo (visual question answering). Des modèles comme BLIP, BLIP-2 ou LLaVA appartiennent à cette catégorie.
Ensuite, on a les modèles créatifs, qui fonctionnent dans l’autre sens, à partir d’un texte, ils génèrent une image réaliste ou artistique. Cette famille inclut les célèbres DALL·E, Stable Diffusion et Imagen. Même si leur objectif final est la génération visuelle, ils reposent sur les mêmes principes fondamentaux d’alignement texte–image appris lors d’un pré-entraînement vision-langage (VLP). Enfin, il existe des modèles polyvalents capables de dialoguer de manière multimodale, alternant compréhension et création, parfois en intégrant aussi l’audio et la vidéo, un pas de plus vers des assistants véritablement universels.
Applications concrètes des VLM
Les VLM sont déjà partout autour de nous, souvent sans qu’on s’en rende compte. Dans l’e-commerce, ils décrivent automatiquement des produits à partir de photos, améliorant ainsi la recherche par image. Dans les médias, ils résument des articles illustrés ou génèrent des légendes pour rendre le contenu accessible. En recherche scientifique, ils aident à analyser des images médicales en les reliant à des rapports ou à détecter des anomalies dans des données visuelles complexes. On les retrouve aussi dans les assistants virtuels capables de répondre à des questions sur une image envoyée par l’utilisateur, ou encore dans l’éducation, où ils expliquent des schémas et graphiques aux étudiants. Bref, les VLM transforment chaque image en une porte d’entrée vers l’information.
Crédits image à la une : Bordes F., Pang R.Y., Ajay A., et al. (2024). An Introduction to Vision-Language ModelingarXiv:2405.17247v1, licence arXiv.org.