Transformer : Définition et Exemples
Architecture de réseau de neurones introduite en 2017 par Google, fondée sur le mécanisme d'attention, qui constitue la base de tous les grands modèles de langage modernes comme GPT, Claude ou Gemini.
Définition complète
Le Transformer est une architecture de réseau de neurones profond présentée dans l'article fondateur "Attention Is All You Need" (Vaswani et al., 2017). Contrairement aux architectures récurrentes (RNN, LSTM) qui traitaient les séquences mot par mot, le Transformer traite l'ensemble d'une séquence en parallèle grâce à un mécanisme appelé "self-attention". Cette innovation a permis des gains massifs en vitesse d'entraînement et en capacité à capturer les relations entre des mots éloignés dans un texte.
Le cœur du Transformer repose sur trois composants clés : les embeddings (représentations vectorielles des tokens), le mécanisme d'attention multi-têtes (qui permet au modèle de "regarder" simultanément différentes parties de la séquence d'entrée), et les couches feed-forward. L'architecture originale comporte un encodeur (qui comprend l'entrée) et un décodeur (qui génère la sortie), mais de nombreuses variantes n'utilisent que l'un des deux — GPT et Claude utilisent uniquement le décodeur, tandis que BERT n'utilise que l'encodeur.
Ce qui rend le Transformer révolutionnaire, c'est sa capacité à passer à l'échelle. En augmentant le nombre de paramètres, la taille des données d'entraînement et la puissance de calcul, les performances s'améliorent de façon prévisible — c'est ce qu'on appelle les "lois d'échelle" (scaling laws). C'est cette propriété qui a conduit à la course aux modèles toujours plus grands, de GPT-2 (1,5 milliard de paramètres) à GPT-4 et Claude, qui en comptent des centaines de milliards.
Aujourd'hui, le Transformer ne se limite plus au texte. Cette architecture a été adaptée avec succès à la vision (Vision Transformer / ViT), à l'audio, à la vidéo, à la robotique et même à la biologie moléculaire (AlphaFold). Il est devenu le socle universel de l'intelligence artificielle générative moderne.
Étymologie
Le nom "Transformer" vient de sa capacité à transformer une séquence d'entrée en une séquence de sortie via le mécanisme d'attention. Le terme a été introduit par l'équipe de Google Brain et Google Research dans leur article de 2017, dont le titre provocateur — "Attention Is All You Need" — soulignait que l'attention seule suffisait, sans récurrence ni convolution.
Exemples concrets
Comprendre le fonctionnement interne d'un modèle
Explique-moi le mécanisme d'attention dans un Transformer comme si j'étais un développeur web sans background en machine learning.
Comparer des architectures pour un choix technique
Quelles sont les différences entre un Transformer encoder-only (type BERT), decoder-only (type GPT) et encoder-decoder (type T5) ? Pour chaque type, donne un cas d'usage idéal.
Vulgariser pour un article ou une présentation
Rédige une analogie simple pour expliquer comment le self-attention permet à un Transformer de comprendre le contexte d'un mot dans une phrase. Utilise une métaphore du quotidien.
Usage pratique
Comprendre l'architecture Transformer aide à mieux prompter : savoir que le modèle traite les tokens en parallèle avec un mécanisme d'attention explique pourquoi la position et la structure de votre prompt comptent. Placer les instructions importantes en début ou en fin de prompt, structurer clairement les sections, et fournir du contexte explicite sont des pratiques directement liées à la façon dont l'attention distribue son "focus" sur votre texte.
Concepts liés
FAQ
Quelle est la différence entre un Transformer et un LLM ?
Pourquoi le Transformer a-t-il remplacé les RNN et LSTM ?
Faut-il comprendre les Transformers pour bien prompter ?
Voir aussi
Recevez de nouveaux prompts chaque semaine
Rejoignez notre newsletter.