P

Top K : Définition et Exemples

Le Top K est un paramètre de génération qui limite le choix du modèle aux K tokens les plus probables à chaque étape, réduisant ainsi les réponses incohérentes tout en conservant une certaine diversité.

Définition complète

Le Top K est un paramètre d'échantillonnage utilisé lors de la génération de texte par les modèles de langage (LLM). À chaque étape de génération, le modèle calcule une probabilité pour chaque token possible dans son vocabulaire. Le paramètre Top K restreint ce choix aux K tokens ayant les probabilités les plus élevées, en excluant tous les autres de la sélection.

Concrètement, si Top K est réglé à 50, le modèle ne considérera que les 50 tokens les plus probables pour le mot suivant, puis effectuera un tirage aléatoire parmi ces 50 candidats en fonction de leurs probabilités respectives. Un Top K de 1 revient à toujours choisir le token le plus probable (génération déterministe), tandis qu'un Top K très élevé laisse le modèle choisir parmi un large éventail de possibilités.

L'intérêt principal du Top K est de trouver un équilibre entre cohérence et créativité. Une valeur trop basse produit des textes répétitifs et prévisibles, tandis qu'une valeur trop haute peut introduire des tokens improbables qui rendent le texte incohérent. En pratique, le Top K est souvent utilisé en combinaison avec d'autres paramètres comme la température et le Top P pour affiner le comportement du modèle.

Il est important de noter que le Top K présente une limitation : il applique un seuil fixe quel que soit le contexte. Dans certaines situations, le modèle est très confiant et seuls 5 tokens sont réellement pertinents, tandis que dans d'autres cas, 200 tokens pourraient être des continuations valides. C'est pourquoi le Top P (nucleus sampling) est souvent préféré, car il s'adapte dynamiquement à la distribution des probabilités.

Étymologie

Le terme "Top K" vient de l'informatique et des statistiques, où "top K" désigne simplement les K éléments les mieux classés d'un ensemble. Dans le contexte des LLM, il a été popularisé par l'article de Fan et al. (2018) sur la génération de texte par échantillonnage, puis largement adopté par les API de modèles comme GPT et Claude.

Exemples concrets

Génération créative avec un Top K élevé pour favoriser l'originalité

Écris un poème surréaliste sur la pluie. [Top K = 100, Temperature = 0.9]

Réponse factuelle avec un Top K bas pour maximiser la précision

Quelle est la capitale de l'Australie ? [Top K = 10, Temperature = 0.2]

Configuration via l'API Claude pour un chatbot professionnel

Dans les paramètres de l'API : { "top_k": 40, "temperature": 0.7 } pour un assistant qui reste cohérent tout en variant ses formulations.

Usage pratique

En prompt engineering, le Top K se règle généralement via les paramètres de l'API du modèle plutôt que dans le prompt lui-même. Pour des tâches factuelles ou techniques, utilisez un Top K bas (10-40) combiné à une température basse. Pour des tâches créatives, augmentez le Top K (50-100) avec une température plus élevée. Dans la plupart des cas, privilégiez le Top P au Top K car il s'adapte mieux au contexte.

Concepts liés

TemperatureTop P (Nucleus Sampling)Échantillonnage (Sampling)Logits

FAQ

Quelle est la différence entre Top K et Top P ?
Le Top K sélectionne un nombre fixe de tokens (les K plus probables), tandis que le Top P sélectionne dynamiquement les tokens dont les probabilités cumulées atteignent un seuil P. Le Top P s'adapte mieux au contexte : il restreint davantage quand le modèle est confiant et élargit le choix quand plusieurs options sont valides.
Quelle valeur de Top K utiliser par défaut ?
Une valeur entre 40 et 50 constitue un bon point de départ pour la plupart des usages. Pour des réponses très précises, descendez à 10-20. Pour de la création libre, montez à 80-100. Notez que certaines API comme celle de Claude utilisent par défaut un Top K qui fonctionne bien sans ajustement dans la majorité des cas.
Peut-on combiner Top K et Top P en même temps ?
Oui, la plupart des API permettent de combiner les deux. Dans ce cas, le modèle applique d'abord le filtre Top K puis le filtre Top P sur les tokens restants. Cela permet un contrôle plus fin, mais en pratique, utiliser l'un ou l'autre suffit généralement. Commencez par Top P seul, puis ajoutez Top K si vous avez besoin de limiter davantage.

Voir aussi

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.