Self Attention : Définition et Exemples
Mécanisme permettant à chaque élément d'une séquence de pondérer l'importance de tous les autres éléments de cette même séquence, constituant le cœur de l'architecture Transformer utilisée par les grands modèles de langage.
Définition complète
Le Self Attention (ou auto-attention) est un mécanisme fondamental en intelligence artificielle qui permet à un modèle de langage d'analyser les relations entre tous les mots d'une même séquence. Contrairement aux réseaux récurrents qui traitent les mots un par un de gauche à droite, le Self Attention permet à chaque mot de "regarder" simultanément tous les autres mots de la phrase pour mieux comprendre le contexte.
Concrètement, pour chaque mot de la séquence, le mécanisme calcule trois vecteurs : une Query (ce que le mot cherche), une Key (ce que le mot offre comme information) et une Value (l'information réelle qu'il transporte). En comparant la Query d'un mot avec les Keys de tous les autres mots, le modèle détermine un score d'attention qui indique à quel point chaque mot est pertinent pour comprendre le mot en cours de traitement.
Ce mécanisme est au cœur de l'architecture Transformer, introduite par Google en 2017 dans l'article "Attention Is All You Need". Les modèles comme GPT, Claude ou Gemini empilent des dizaines de couches de Self Attention, ce qui leur permet de capturer des dépendances complexes entre les mots, même très éloignés dans le texte. C'est grâce au Self Attention qu'un modèle peut comprendre que dans la phrase "Le chat qui dormait sur le canapé du salon s'est levé", le verbe "s'est levé" se rapporte au "chat" malgré la distance.
Pour les praticiens du prompt engineering, comprendre le Self Attention permet d'expliquer pourquoi les modèles excellent dans certaines tâches (résumé, traduction, analyse de contexte) mais peuvent aussi être sensibles à la longueur du contexte et à la position des informations clés dans un prompt.
Étymologie
Le terme "Self Attention" a été formalisé dans l'article de recherche "Attention Is All You Need" publié par Vaswani et al. chez Google en 2017. Le préfixe "Self" distingue ce mécanisme de l'attention croisée (cross-attention) où deux séquences différentes interagissent. Le concept d'attention en réseaux de neurones existait depuis 2014 (Bahdanau et al.), mais l'innovation du Self Attention a été de l'appliquer à une séquence par rapport à elle-même, éliminant le besoin de récurrence.
Exemples concrets
Comprendre la résolution d'ambiguïté dans les phrases longues
Dans la phrase suivante, identifie à quoi se réfère chaque pronom et explique ton raisonnement : "Marie a dit à Sophie qu'elle devrait prendre son parapluie car elle avait vu la météo."
Exploiter la capacité d'attention sur des documents longs
Voici un contrat de 20 pages. Identifie toutes les clauses qui mentionnent des pénalités financières et relie chacune à la clause de définition correspondante.
Structurer un prompt pour maximiser l'attention sur les éléments clés
CONTEXTE IMPORTANT (à garder en mémoire pour toute ta réponse) : Le budget est de 5000€ maximum et le délai est de 2 semaines. Propose-moi un plan marketing pour le lancement d'une application mobile.
Usage pratique
En prompt engineering, comprendre le Self Attention aide à structurer ses prompts de manière optimale : placer les informations cruciales au début ou à la fin du prompt (positions où l'attention est naturellement plus forte), utiliser des marqueurs explicites pour guider l'attention du modèle sur les éléments importants, et découper les tâches complexes pour ne pas surcharger la capacité d'attention sur une seule passe.
Concepts liés
FAQ
Quelle est la différence entre Self Attention et Cross Attention ?
Pourquoi le Self Attention est-il limité par la longueur du contexte ?
Comment le Self Attention influence-t-il la qualité de mes prompts ?
Voir aussi
Recevez de nouveaux prompts chaque semaine
Rejoignez notre newsletter.