Vision Language Model : Définition et Exemples

Un Vision Language Model (VLM) est un modèle d'intelligence artificielle capable de comprendre et de raisonner simultanément sur des images et du texte, permettant des interactions multimodales entre vision par ordinateur et traitement du langage naturel.

Définition complète

Un Vision Language Model (VLM) est une architecture d'IA qui combine les capacités de compréhension visuelle et linguistique au sein d'un même système. Contrairement aux modèles traditionnels spécialisés dans une seule modalité (texte ou image), les VLM peuvent analyser une image, en extraire du sens, et produire des réponses textuelles pertinentes en s'appuyant sur ce qu'ils "voient".

Les VLM reposent généralement sur l'association d'un encodeur visuel (souvent basé sur un Vision Transformer) et d'un grand modèle de langage (LLM). L'encodeur visuel transforme l'image en une représentation numérique que le modèle de langage peut interpréter. Des exemples notables incluent GPT-4o, Claude (avec la vision), Gemini ou encore LLaVA. Ces modèles sont entraînés sur d'immenses corpus de paires image-texte pour apprendre les correspondances entre les deux modalités.

En prompt engineering, les VLM ouvrent des possibilités considérables : on peut soumettre une image accompagnée d'une instruction textuelle pour obtenir une description, une analyse, une extraction de données ou même une génération de code à partir d'une maquette. La qualité des résultats dépend fortement de la précision du prompt textuel qui accompagne l'image.

Les applications pratiques sont nombreuses : accessibilité (description d'images pour les malvoyants), analyse de documents, modération de contenu visuel, assistance médicale par imagerie, robotique, ou encore automatisation de tâches nécessitant une compréhension conjointe du visuel et du textuel.

Étymologie

Le terme "Vision Language Model" est composé de trois mots anglais : "Vision" (capacité de perception visuelle), "Language" (traitement du langage) et "Model" (modèle d'apprentissage automatique). Il est apparu dans la littérature scientifique au début des années 2020, à mesure que les architectures Transformer ont permis d'unifier le traitement de différentes modalités dans un même réseau de neurones.

Exemples concrets

Analyse d'une capture d'écran d'interface utilisateur

Voici une capture d'écran de mon application. Identifie les problèmes d'accessibilité et propose des améliorations concrètes pour chaque élément problématique.

Extraction de données depuis un document scanné

Extrais toutes les informations de cette facture (numéro, date, montant TTC, TVA, nom du fournisseur) et retourne-les au format JSON structuré.

Assistance à la programmation depuis une maquette

Voici la maquette Figma de ma landing page. Génère le code HTML et CSS correspondant en utilisant Tailwind CSS, en respectant fidèlement les espacements et la typographie.

Usage pratique

En prompt engineering, utilisez les VLM en fournissant toujours un contexte textuel précis avec vos images : décrivez ce que vous attendez comme analyse, le format de sortie souhaité et le niveau de détail requis. Plus votre instruction textuelle est spécifique, plus la compréhension visuelle du modèle sera ciblée et pertinente. Pensez à découper les images complexes ou à zoomer sur les zones d'intérêt pour améliorer la précision des résultats.

Concepts liés

MultimodalitéVision Transformer (ViT)Grand modèle de langage (LLM)Encodeur visuel

FAQ

Quelle est la différence entre un VLM et un modèle de génération d'images comme DALL-E ?

Un VLM comprend les images et produit du texte en réponse (image → texte), tandis qu'un modèle de génération d'images comme DALL-E fait l'inverse : il crée des images à partir de descriptions textuelles (texte → image). Certains modèles récents comme GPT-4o combinent les deux capacités.

Tous les LLM sont-ils capables de comprendre des images ?

Non, seuls les modèles explicitement entraînés sur des données multimodales (image + texte) possèdent des capacités de vision. Un LLM purement textuel comme GPT-2 ou LLaMA original ne peut pas traiter d'images. Il faut vérifier que le modèle utilisé supporte la modalité visuelle avant d'envoyer des images.

Comment optimiser mes prompts lorsque j'envoie une image à un VLM ?

Soyez explicite sur la tâche à accomplir : au lieu d'envoyer simplement une image, précisez ce que vous cherchez (« décris », « compare », « extrais les données », « identifie les erreurs »). Indiquez le format de sortie attendu et, si nécessaire, guidez le modèle en mentionnant les zones spécifiques de l'image à analyser.

Voir aussi

Multimodalité Grand modèle de langage Transformer Few-shot prompting Token

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.