Self Attention : Définition et Exemples

Mécanisme permettant à chaque élément d'une séquence de pondérer l'importance de tous les autres éléments de cette même séquence, constituant le cœur de l'architecture Transformer utilisée par les grands modèles de langage.

Définition complète

Le Self Attention (ou auto-attention) est un mécanisme fondamental en intelligence artificielle qui permet à un modèle de langage d'analyser les relations entre tous les mots d'une même séquence. Contrairement aux réseaux récurrents qui traitent les mots un par un de gauche à droite, le Self Attention permet à chaque mot de "regarder" simultanément tous les autres mots de la phrase pour mieux comprendre le contexte.

Concrètement, pour chaque mot de la séquence, le mécanisme calcule trois vecteurs : une Query (ce que le mot cherche), une Key (ce que le mot offre comme information) et une Value (l'information réelle qu'il transporte). En comparant la Query d'un mot avec les Keys de tous les autres mots, le modèle détermine un score d'attention qui indique à quel point chaque mot est pertinent pour comprendre le mot en cours de traitement.

Ce mécanisme est au cœur de l'architecture Transformer, introduite par Google en 2017 dans l'article "Attention Is All You Need". Les modèles comme GPT, Claude ou Gemini empilent des dizaines de couches de Self Attention, ce qui leur permet de capturer des dépendances complexes entre les mots, même très éloignés dans le texte. C'est grâce au Self Attention qu'un modèle peut comprendre que dans la phrase "Le chat qui dormait sur le canapé du salon s'est levé", le verbe "s'est levé" se rapporte au "chat" malgré la distance.

Pour les praticiens du prompt engineering, comprendre le Self Attention permet d'expliquer pourquoi les modèles excellent dans certaines tâches (résumé, traduction, analyse de contexte) mais peuvent aussi être sensibles à la longueur du contexte et à la position des informations clés dans un prompt.

Étymologie

Le terme "Self Attention" a été formalisé dans l'article de recherche "Attention Is All You Need" publié par Vaswani et al. chez Google en 2017. Le préfixe "Self" distingue ce mécanisme de l'attention croisée (cross-attention) où deux séquences différentes interagissent. Le concept d'attention en réseaux de neurones existait depuis 2014 (Bahdanau et al.), mais l'innovation du Self Attention a été de l'appliquer à une séquence par rapport à elle-même, éliminant le besoin de récurrence.

Exemples concrets

Comprendre la résolution d'ambiguïté dans les phrases longues

Dans la phrase suivante, identifie à quoi se réfère chaque pronom et explique ton raisonnement : "Marie a dit à Sophie qu'elle devrait prendre son parapluie car elle avait vu la météo."

Exploiter la capacité d'attention sur des documents longs

Voici un contrat de 20 pages. Identifie toutes les clauses qui mentionnent des pénalités financières et relie chacune à la clause de définition correspondante.

Structurer un prompt pour maximiser l'attention sur les éléments clés

CONTEXTE IMPORTANT (à garder en mémoire pour toute ta réponse) : Le budget est de 5000€ maximum et le délai est de 2 semaines. Propose-moi un plan marketing pour le lancement d'une application mobile.

Usage pratique

En prompt engineering, comprendre le Self Attention aide à structurer ses prompts de manière optimale : placer les informations cruciales au début ou à la fin du prompt (positions où l'attention est naturellement plus forte), utiliser des marqueurs explicites pour guider l'attention du modèle sur les éléments importants, et découper les tâches complexes pour ne pas surcharger la capacité d'attention sur une seule passe.

Concepts liés

TransformerMulti-Head AttentionFenêtre de contexteTokenization

FAQ

Quelle est la différence entre Self Attention et Cross Attention ?

Le Self Attention analyse les relations entre les éléments d'une même séquence (par exemple, les mots d'un même texte). Le Cross Attention, en revanche, met en relation deux séquences différentes, comme un texte source et sa traduction, ou une image et sa description textuelle. Les deux mécanismes utilisent le même principe de Query-Key-Value, mais appliqué différemment.

Pourquoi le Self Attention est-il limité par la longueur du contexte ?

Le Self Attention compare chaque token avec tous les autres, ce qui génère un coût computationnel quadratique : doubler la longueur du texte quadruple le temps de calcul. C'est pourquoi les modèles ont une fenêtre de contexte limitée (8K, 128K, 1M tokens selon les modèles). Des optimisations comme le Sparse Attention ou le Flash Attention permettent de repousser ces limites.

Comment le Self Attention influence-t-il la qualité de mes prompts ?

Le Self Attention explique pourquoi un modèle peut "oublier" des instructions noyées dans un prompt très long (phénomène du "lost in the middle"). Pour de meilleurs résultats, placez vos instructions clés au début du prompt, utilisez des séparateurs visuels clairs (titres, listes), et répétez les contraintes importantes si votre prompt est long. Structurer son prompt, c'est guider l'attention du modèle.

Voir aussi

Transformer Tokenization Fenêtre de contexte Embedding Multi-Head Attention Temperature

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.