Attention : Définition et Exemples

Mécanisme fondamental des modèles de langage modernes qui permet au modèle de pondérer l'importance relative de chaque mot par rapport aux autres dans une séquence, afin de mieux comprendre le contexte et les relations sémantiques.

Définition complète

L'attention est un mécanisme introduit dans l'article fondateur "Attention Is All You Need" (2017) par l'équipe de Google. Il constitue la brique de base de l'architecture Transformer, sur laquelle reposent tous les grands modèles de langage actuels comme GPT, Claude ou Gemini. Son principe : plutôt que de traiter les mots d'une phrase de manière séquentielle et uniforme, le modèle apprend à "regarder" simultanément tous les mots et à accorder plus ou moins de poids à chacun selon sa pertinence pour la tâche en cours.

Concrètement, le mécanisme d'attention fonctionne avec trois vecteurs — Query (requête), Key (clé) et Value (valeur) — calculés pour chaque token de la séquence. Le score d'attention entre deux tokens est obtenu par le produit scalaire de leurs vecteurs Query et Key, puis normalisé. Ce score détermine à quel point un mot doit "prêter attention" à un autre. Par exemple, dans la phrase "Le chat dort sur le canapé", le mot "dort" accordera un poids élevé au mot "chat" car c'est le sujet de l'action.

La variante la plus utilisée est le "self-attention" (auto-attention), où chaque token calcule ses scores d'attention par rapport à tous les autres tokens de la même séquence. Les Transformers utilisent également le "multi-head attention", qui exécute plusieurs mécanismes d'attention en parallèle, permettant au modèle de capturer différents types de relations (syntaxiques, sémantiques, logiques) simultanément.

En prompt engineering, comprendre l'attention est crucial car elle explique pourquoi la position et la formulation des instructions dans un prompt influencent directement la qualité des réponses. Les informations placées en début et en fin de prompt reçoivent généralement plus d'attention, et les instructions claires et structurées facilitent le travail du mécanisme d'attention pour identifier ce qui est pertinent.

Étymologie

Le terme "attention" est emprunté au vocabulaire des sciences cognitives, où il désigne la capacité du cerveau humain à se concentrer sélectivement sur certaines informations tout en ignorant les autres. En intelligence artificielle, cette métaphore a été formalisée mathématiquement pour la première fois par Bahdanau et al. (2014) dans le contexte de la traduction automatique, avant d'être généralisée par Vaswani et al. (2017) dans l'architecture Transformer.

Exemples concrets

Structurer un prompt long pour maximiser l'attention du modèle

Voici un document de 3 pages. Ta tâche principale (IMPORTANT) : extraire uniquement les chiffres de revenus du T3 2025. Ignore tout le reste. Document : [...]

Exploiter l'attention en plaçant les instructions clés aux positions stratégiques

RÈGLE ABSOLUE : réponds uniquement en français.

[Contenu du prompt...]

Rappel : ta réponse doit être intégralement en français.

Comprendre pourquoi un modèle perd le fil sur des contextes très longs

Résume les points clés de chaque section séparément, puis fournis une synthèse globale. Cela m'aidera à vérifier que tu n'as rien oublié dans le document.

Usage pratique

En prompt engineering, le mécanisme d'attention explique pourquoi il faut placer les instructions critiques en début ou en fin de prompt, et pourquoi la clarté structurelle (listes, titres, séparateurs) améliore les résultats. Quand vous travaillez avec de longs contextes, découpez vos demandes et rappelez les consignes importantes pour compenser la dilution naturelle de l'attention sur les grandes séquences.

Concepts liés

TransformerTokenFenêtre de contexteEmbedding

FAQ

Quelle est la différence entre attention et self-attention ?

L'attention classique (ou cross-attention) calcule les relations entre deux séquences différentes, par exemple une question et un document. Le self-attention calcule les relations entre tous les éléments d'une même séquence, permettant à chaque mot de "regarder" tous les autres mots du même texte. Dans les grands modèles de langage, c'est principalement le self-attention qui est utilisé.

Pourquoi le mécanisme d'attention est-il si important pour les LLM ?

Avant l'attention, les modèles de langage (RNN, LSTM) traitaient les mots séquentiellement et perdaient l'information sur les mots lointains. L'attention permet de relier directement n'importe quel mot à n'importe quel autre, quelle que soit la distance. C'est ce qui permet aux LLM de comprendre des phrases complexes, de suivre des instructions longues et de maintenir la cohérence sur des textes étendus.

Comment exploiter la connaissance de l'attention pour écrire de meilleurs prompts ?

Trois principes pratiques : (1) Placez vos instructions les plus importantes au début et à la fin du prompt, car ces positions reçoivent naturellement plus d'attention. (2) Utilisez des marqueurs visuels clairs (titres, listes, balises XML) pour aider le modèle à identifier la structure. (3) Pour les contextes longs, répétez les consignes clés et demandez au modèle de traiter l'information par sections plutôt qu'en un seul bloc.

Voir aussi

Transformer Token Fenêtre de contexte Embedding Self-Attention Multi-Head Attention

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.