Attention : Définition et Exemples
Mécanisme fondamental des modèles de langage modernes qui permet au modèle de pondérer l'importance relative de chaque mot par rapport aux autres dans une séquence, afin de mieux comprendre le contexte et les relations sémantiques.
Définition complète
L'attention est un mécanisme introduit dans l'article fondateur "Attention Is All You Need" (2017) par l'équipe de Google. Il constitue la brique de base de l'architecture Transformer, sur laquelle reposent tous les grands modèles de langage actuels comme GPT, Claude ou Gemini. Son principe : plutôt que de traiter les mots d'une phrase de manière séquentielle et uniforme, le modèle apprend à "regarder" simultanément tous les mots et à accorder plus ou moins de poids à chacun selon sa pertinence pour la tâche en cours.
Concrètement, le mécanisme d'attention fonctionne avec trois vecteurs — Query (requête), Key (clé) et Value (valeur) — calculés pour chaque token de la séquence. Le score d'attention entre deux tokens est obtenu par le produit scalaire de leurs vecteurs Query et Key, puis normalisé. Ce score détermine à quel point un mot doit "prêter attention" à un autre. Par exemple, dans la phrase "Le chat dort sur le canapé", le mot "dort" accordera un poids élevé au mot "chat" car c'est le sujet de l'action.
La variante la plus utilisée est le "self-attention" (auto-attention), où chaque token calcule ses scores d'attention par rapport à tous les autres tokens de la même séquence. Les Transformers utilisent également le "multi-head attention", qui exécute plusieurs mécanismes d'attention en parallèle, permettant au modèle de capturer différents types de relations (syntaxiques, sémantiques, logiques) simultanément.
En prompt engineering, comprendre l'attention est crucial car elle explique pourquoi la position et la formulation des instructions dans un prompt influencent directement la qualité des réponses. Les informations placées en début et en fin de prompt reçoivent généralement plus d'attention, et les instructions claires et structurées facilitent le travail du mécanisme d'attention pour identifier ce qui est pertinent.
Étymologie
Le terme "attention" est emprunté au vocabulaire des sciences cognitives, où il désigne la capacité du cerveau humain à se concentrer sélectivement sur certaines informations tout en ignorant les autres. En intelligence artificielle, cette métaphore a été formalisée mathématiquement pour la première fois par Bahdanau et al. (2014) dans le contexte de la traduction automatique, avant d'être généralisée par Vaswani et al. (2017) dans l'architecture Transformer.
Exemples concrets
Structurer un prompt long pour maximiser l'attention du modèle
Voici un document de 3 pages. Ta tâche principale (IMPORTANT) : extraire uniquement les chiffres de revenus du T3 2025. Ignore tout le reste. Document : [...]
Exploiter l'attention en plaçant les instructions clés aux positions stratégiques
RÈGLE ABSOLUE : réponds uniquement en français. [Contenu du prompt...] Rappel : ta réponse doit être intégralement en français.
Comprendre pourquoi un modèle perd le fil sur des contextes très longs
Résume les points clés de chaque section séparément, puis fournis une synthèse globale. Cela m'aidera à vérifier que tu n'as rien oublié dans le document.
Usage pratique
En prompt engineering, le mécanisme d'attention explique pourquoi il faut placer les instructions critiques en début ou en fin de prompt, et pourquoi la clarté structurelle (listes, titres, séparateurs) améliore les résultats. Quand vous travaillez avec de longs contextes, découpez vos demandes et rappelez les consignes importantes pour compenser la dilution naturelle de l'attention sur les grandes séquences.
Concepts liés
FAQ
Quelle est la différence entre attention et self-attention ?
Pourquoi le mécanisme d'attention est-il si important pour les LLM ?
Comment exploiter la connaissance de l'attention pour écrire de meilleurs prompts ?
Voir aussi
Recevez de nouveaux prompts chaque semaine
Rejoignez notre newsletter.