Question 1

Pourquoi les Transformers ont-ils besoin de Positional Encoding alors que les RNN n'en ont pas besoin ?

Accepted Answer

Les RNN traitent les tokens un par un dans l'ordre, ce qui leur donne naturellement l'information de position. Les Transformers, eux, traitent tous les tokens simultanément grâce au mécanisme d'attention parallèle. Sans encodage positionnel, un Transformer traiterait "Jean aime Marie" et "Marie aime Jean" de façon identique, car l'ensemble des tokens est le même. Le Positional Encoding résout ce problème en ajoutant un signal de position à chaque token.

Question 2

Le Positional Encoding affecte-t-il la qualité des réponses sur les longs prompts ?

Accepted Answer

Oui, directement. La méthode d'encodage positionnel détermine la capacité du modèle à maintenir la cohérence sur de longues séquences. Les recherches montrent un phénomène de "lost in the middle" : les modèles tendent à mieux retenir les informations en début et en fin de contexte. Les avancées récentes comme RoPE et ALiBi améliorent ce comportement, mais il reste judicieux de structurer ses prompts en conséquence.

Question 3

Quelle est la différence entre encodage positionnel absolu et relatif ?

Accepted Answer

L'encodage absolu attribue un vecteur fixe à chaque position (position 1, position 2, etc.), comme dans le Transformer original ou GPT-2. L'encodage relatif capture plutôt la distance entre les tokens ("ce mot est à 3 positions de celui-ci"), comme dans T5 ou avec RoPE. L'encodage relatif généralise mieux aux séquences plus longues que celles vues à l'entraînement et capte plus naturellement les relations syntaxiques entre mots proches.

Positional Encoding : Définition et Exemples

Définition complète

Étymologie

Exemples concrets

Usage pratique

Concepts liés

FAQ

Voir aussi

Recevez de nouveaux prompts chaque semaine