P

Multimodal : Définition et Exemples

Qualifie un modèle d'IA capable de traiter et de générer plusieurs types de données (texte, images, audio, vidéo) au sein d'une même interaction.

Définition complète

Le terme multimodal désigne la capacité d'un système d'intelligence artificielle à comprendre et produire différentes modalités d'information simultanément. Contrairement aux modèles unimodaux qui ne traitent qu'un seul type de données (par exemple, uniquement du texte), un modèle multimodal peut analyser une image, lire un document, écouter un fichier audio et répondre en combinant ces sources d'information.

Dans le contexte du prompt engineering, la multimodalité ouvre des possibilités considérables. On peut par exemple soumettre une photo d'un graphique et demander au modèle de l'interpréter, fournir un croquis dessiné à la main pour générer du code d'interface, ou encore décrire une scène en texte pour obtenir une image. Chaque modalité apporte un canal d'information complémentaire qui enrichit la compréhension du modèle.

Les modèles multimodaux les plus avancés, comme GPT-4o, Claude (avec vision) ou Gemini, combinent des encodeurs spécialisés pour chaque type de données avec un espace de représentation partagé. Cela leur permet de raisonner de manière transversale : comparer un texte à une image, extraire des données d'un PDF scanné ou générer une description à partir d'une vidéo.

Pour le praticien du prompt engineering, maîtriser la multimodalité signifie savoir choisir la bonne modalité d'entrée selon le problème, combiner efficacement texte et visuels dans un même prompt, et comprendre les forces et limites de chaque canal. Un prompt bien conçu en multimodal exploite la complémentarité des modalités plutôt que de les utiliser de manière redondante.

Étymologie

Du latin "multi" (plusieurs) et "modus" (manière, mode). En linguistique et en sciences cognitives, le terme désigne depuis les années 1990 la communication qui emprunte plusieurs canaux sensoriels. Il a été adopté par la communauté IA à partir des années 2010 pour qualifier les modèles capables de traiter plusieurs types de données.

Exemples concrets

Analyse d'image avec contexte textuel

Voici une photo de mon tableau de bord de voiture. Peux-tu identifier les voyants allumés et m'expliquer ce qu'ils signifient ?

Extraction de données depuis un document scanné

Analyse cette facture scannée [image jointe]. Extrais le montant total, la date et le numéro de facture, puis formate-les en JSON.

Transformation d'un croquis en code

Voici un wireframe dessiné à la main pour une page de connexion [image jointe]. Génère le code HTML et CSS correspondant en respectant fidèlement la disposition.

Usage pratique

En prompt engineering, exploitez la multimodalité en fournissant l'information sous la forme la plus naturelle pour votre besoin : une image quand une description textuelle serait ambiguë, un schéma pour clarifier une architecture, ou un extrait audio pour une transcription. Combinez toujours l'entrée visuelle ou audio avec des instructions textuelles précises pour guider l'interprétation du modèle. Testez si l'ajout d'une modalité supplémentaire améliore réellement la qualité de la réponse — parfois, un prompt textuel bien structuré reste plus efficace.

Concepts liés

Vision par ordinateurTraitement du langage naturelEmbeddingsModèle de fondation

FAQ

Tous les modèles d'IA sont-ils multimodaux ?
Non. La majorité des modèles restent unimodaux (texte uniquement). Les capacités multimodales sont présentes dans les modèles de dernière génération comme GPT-4o, Claude avec vision, ou Gemini. Il est important de vérifier les modalités supportées par le modèle que vous utilisez avant de concevoir un prompt multimodal.
Un prompt multimodal est-il toujours meilleur qu'un prompt textuel ?
Pas nécessairement. Un prompt multimodal est supérieur quand l'information visuelle ou audio est difficile à décrire en texte (un graphique complexe, un bug d'interface, un accent vocal). Mais pour des tâches purement logiques ou textuelles, ajouter une image peut introduire du bruit ou ralentir le traitement sans bénéfice. Choisissez la modalité qui transmet l'information le plus efficacement.
Comment optimiser un prompt qui combine texte et image ?
Trois règles clés : (1) placez l'image en premier, puis vos instructions textuelles, car le modèle traite séquentiellement ; (2) soyez explicite sur ce que vous attendez — ne supposez pas que le modèle regardera la bonne partie de l'image ; (3) utilisez des références spatiales précises (« en haut à droite », « dans le deuxième graphique ») pour diriger l'attention du modèle vers les zones pertinentes.

Voir aussi

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.

Multimodal : Définition et Exemples | Prompt Guide