Transformer : Définition et Exemples

Architecture de réseau de neurones introduite en 2017 par Google, fondée sur le mécanisme d'attention, qui constitue la base de tous les grands modèles de langage modernes comme GPT, Claude ou Gemini.

Définition complète

Le Transformer est une architecture de réseau de neurones profond présentée dans l'article fondateur "Attention Is All You Need" (Vaswani et al., 2017). Contrairement aux architectures récurrentes (RNN, LSTM) qui traitaient les séquences mot par mot, le Transformer traite l'ensemble d'une séquence en parallèle grâce à un mécanisme appelé "self-attention". Cette innovation a permis des gains massifs en vitesse d'entraînement et en capacité à capturer les relations entre des mots éloignés dans un texte.

Le cœur du Transformer repose sur trois composants clés : les embeddings (représentations vectorielles des tokens), le mécanisme d'attention multi-têtes (qui permet au modèle de "regarder" simultanément différentes parties de la séquence d'entrée), et les couches feed-forward. L'architecture originale comporte un encodeur (qui comprend l'entrée) et un décodeur (qui génère la sortie), mais de nombreuses variantes n'utilisent que l'un des deux — GPT et Claude utilisent uniquement le décodeur, tandis que BERT n'utilise que l'encodeur.

Ce qui rend le Transformer révolutionnaire, c'est sa capacité à passer à l'échelle. En augmentant le nombre de paramètres, la taille des données d'entraînement et la puissance de calcul, les performances s'améliorent de façon prévisible — c'est ce qu'on appelle les "lois d'échelle" (scaling laws). C'est cette propriété qui a conduit à la course aux modèles toujours plus grands, de GPT-2 (1,5 milliard de paramètres) à GPT-4 et Claude, qui en comptent des centaines de milliards.

Aujourd'hui, le Transformer ne se limite plus au texte. Cette architecture a été adaptée avec succès à la vision (Vision Transformer / ViT), à l'audio, à la vidéo, à la robotique et même à la biologie moléculaire (AlphaFold). Il est devenu le socle universel de l'intelligence artificielle générative moderne.

Étymologie

Le nom "Transformer" vient de sa capacité à transformer une séquence d'entrée en une séquence de sortie via le mécanisme d'attention. Le terme a été introduit par l'équipe de Google Brain et Google Research dans leur article de 2017, dont le titre provocateur — "Attention Is All You Need" — soulignait que l'attention seule suffisait, sans récurrence ni convolution.

Exemples concrets

Comprendre le fonctionnement interne d'un modèle

Explique-moi le mécanisme d'attention dans un Transformer comme si j'étais un développeur web sans background en machine learning.

Comparer des architectures pour un choix technique

Quelles sont les différences entre un Transformer encoder-only (type BERT), decoder-only (type GPT) et encoder-decoder (type T5) ? Pour chaque type, donne un cas d'usage idéal.

Vulgariser pour un article ou une présentation

Rédige une analogie simple pour expliquer comment le self-attention permet à un Transformer de comprendre le contexte d'un mot dans une phrase. Utilise une métaphore du quotidien.

Usage pratique

Comprendre l'architecture Transformer aide à mieux prompter : savoir que le modèle traite les tokens en parallèle avec un mécanisme d'attention explique pourquoi la position et la structure de votre prompt comptent. Placer les instructions importantes en début ou en fin de prompt, structurer clairement les sections, et fournir du contexte explicite sont des pratiques directement liées à la façon dont l'attention distribue son "focus" sur votre texte.

Concepts liés

Self-AttentionTokenEmbeddingLarge Language Model (LLM)

FAQ

Quelle est la différence entre un Transformer et un LLM ?

Le Transformer est une architecture — un plan de construction. Un LLM (Large Language Model) est un modèle concret construit sur cette architecture, entraîné sur d'énormes quantités de données. Par analogie, le Transformer est le plan d'un immeuble, et GPT-4 ou Claude sont des immeubles spécifiques construits selon ce plan, chacun avec ses propres finitions et caractéristiques.

Pourquoi le Transformer a-t-il remplacé les RNN et LSTM ?

Les RNN et LSTM traitaient les séquences mot par mot, ce qui les rendait lents à entraîner et mauvais pour capturer les relations entre des mots éloignés. Le Transformer traite toute la séquence en parallèle grâce à l'attention, ce qui le rend beaucoup plus rapide à entraîner sur GPU et bien meilleur pour comprendre le contexte global d'un texte.

Faut-il comprendre les Transformers pour bien prompter ?

Ce n'est pas indispensable, mais c'est un avantage réel. Comprendre que le modèle utilise l'attention pour pondérer l'importance relative de chaque partie de votre prompt vous aide à structurer vos instructions de manière plus efficace. Par exemple, vous comprendrez pourquoi répéter une consigne importante ou pourquoi le contexte fourni au début du prompt influence fortement la réponse.

Voir aussi

Self-Attention Token Embedding Large Language Model Fine-Tuning Fenêtre de contexte

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.