P

Perplexité Métrique : Définition et Exemples

La perplexité est une métrique d'évaluation des modèles de langage qui mesure à quel point un modèle est « surpris » par un texte donné. Plus la perplexité est basse, plus le modèle prédit efficacement la séquence de mots.

Définition complète

La perplexité (perplexity en anglais) est l'une des métriques les plus fondamentales pour évaluer la qualité d'un modèle de langage. Elle quantifie l'incertitude du modèle lorsqu'il doit prédire le mot suivant dans une séquence. Concrètement, une perplexité de 50 signifie que le modèle hésite en moyenne entre 50 mots possibles à chaque position — comme si, à chaque étape, il devait choisir parmi 50 options équiprobables.

Mathématiquement, la perplexité est définie comme l'exponentielle de l'entropie croisée entre la distribution réelle des mots et la distribution prédite par le modèle. Elle se calcule sur un corpus de test : on demande au modèle de prédire chaque token du texte et on mesure la probabilité moyenne qu'il assigne aux tokens corrects. Une perplexité de 1 correspondrait à un modèle parfait qui prédit chaque mot avec certitude absolue.

Dans le contexte du prompt engineering, la perplexité est un indicateur indirect mais précieux. Un prompt bien formulé génère généralement des réponses à plus faible perplexité, car le modèle dispose de suffisamment de contexte pour produire des prédictions cohérentes et confiantes. À l'inverse, un prompt ambigu ou mal structuré peut entraîner une perplexité élevée, signe que le modèle « hésite » et risque de produire des réponses moins pertinentes.

Il est important de noter que la perplexité a ses limites : elle ne mesure pas directement la qualité sémantique ou la pertinence d'une réponse. Un texte très répétitif peut avoir une faible perplexité sans être utile. C'est pourquoi les chercheurs combinent souvent cette métrique avec d'autres évaluations comme le score BLEU, ROUGE ou des évaluations humaines pour obtenir une vision complète des performances d'un modèle.

Étymologie

Le terme « perplexité » vient du latin « perplexitas » signifiant confusion ou embarras. En théorie de l'information, il a été adopté pour exprimer le degré d'incertitude ou de « confusion » d'un modèle probabiliste face à des données. Son usage en traitement du langage naturel remonte aux travaux fondateurs sur les modèles de langage statistiques dans les années 1980.

Exemples concrets

Comparer deux versions d'un modèle fine-tuné sur un corpus spécialisé

Évalue la perplexité de ce modèle fine-tuné sur le corpus de test médical et compare-la avec le modèle de base pour mesurer l'amélioration.

Diagnostiquer la qualité d'un prompt en analysant la confiance du modèle

Génère une réponse à cette question et indique ton niveau de confiance pour chaque partie de ta réponse. Si tu hésites fortement entre plusieurs formulations, signale-le.

Sélectionner le meilleur modèle de langage pour une tâche de génération de texte

Compare les perplexités de GPT-4, Claude et Llama 3 sur ce jeu de test composé de 500 articles techniques en français pour déterminer lequel modélise le mieux ce domaine.

Usage pratique

En prompt engineering, comprendre la perplexité aide à formuler des instructions plus précises qui réduisent l'incertitude du modèle. Un prompt riche en contexte et en contraintes claires oriente le modèle vers des zones de faible perplexité, produisant des réponses plus cohérentes et prévisibles. Lors du choix ou de l'évaluation d'un LLM, comparer les perplexités sur votre corpus métier permet d'identifier le modèle le mieux adapté à votre domaine.

Concepts liés

Entropie croiséeTokenTempératureFine-tuning

FAQ

Qu'est-ce qu'une bonne valeur de perplexité pour un modèle de langage ?
Il n'existe pas de seuil universel. La perplexité dépend du corpus, de la taille du vocabulaire et du domaine. Pour un modèle généraliste moderne sur de l'anglais courant, une perplexité entre 15 et 30 est considérée comme bonne. Sur un domaine spécialisé après fine-tuning, elle peut descendre en dessous de 10. L'important est de comparer les perplexités entre modèles sur le même jeu de test.
Quelle est la différence entre perplexité et température dans un LLM ?
La perplexité est une métrique d'évaluation qui mesure la qualité des prédictions du modèle, tandis que la température est un paramètre de génération qui contrôle le caractère aléatoire des réponses. Une température élevée augmente la diversité des réponses (et donc la perplexité apparente), mais la perplexité intrinsèque du modèle reste la même — seule la distribution d'échantillonnage change.
Peut-on utiliser la perplexité pour détecter du texte généré par une IA ?
Oui, c'est l'une des approches utilisées par certains détecteurs de texte IA. Le principe est que le texte généré par un modèle tend à avoir une perplexité plus faible lorsqu'il est évalué par ce même modèle (ou un modèle similaire), car il suit des patterns statistiques très prévisibles. Cependant, cette méthode a des limites importantes : un texte humain très structuré peut aussi avoir une faible perplexité, et les techniques de paraphrase peuvent fausser la détection.

Voir aussi

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.