Perplexité Métrique : Définition et Exemples
La perplexité est une métrique d'évaluation des modèles de langage qui mesure à quel point un modèle est « surpris » par un texte donné. Plus la perplexité est basse, plus le modèle prédit efficacement la séquence de mots.
Définition complète
La perplexité (perplexity en anglais) est l'une des métriques les plus fondamentales pour évaluer la qualité d'un modèle de langage. Elle quantifie l'incertitude du modèle lorsqu'il doit prédire le mot suivant dans une séquence. Concrètement, une perplexité de 50 signifie que le modèle hésite en moyenne entre 50 mots possibles à chaque position — comme si, à chaque étape, il devait choisir parmi 50 options équiprobables.
Mathématiquement, la perplexité est définie comme l'exponentielle de l'entropie croisée entre la distribution réelle des mots et la distribution prédite par le modèle. Elle se calcule sur un corpus de test : on demande au modèle de prédire chaque token du texte et on mesure la probabilité moyenne qu'il assigne aux tokens corrects. Une perplexité de 1 correspondrait à un modèle parfait qui prédit chaque mot avec certitude absolue.
Dans le contexte du prompt engineering, la perplexité est un indicateur indirect mais précieux. Un prompt bien formulé génère généralement des réponses à plus faible perplexité, car le modèle dispose de suffisamment de contexte pour produire des prédictions cohérentes et confiantes. À l'inverse, un prompt ambigu ou mal structuré peut entraîner une perplexité élevée, signe que le modèle « hésite » et risque de produire des réponses moins pertinentes.
Il est important de noter que la perplexité a ses limites : elle ne mesure pas directement la qualité sémantique ou la pertinence d'une réponse. Un texte très répétitif peut avoir une faible perplexité sans être utile. C'est pourquoi les chercheurs combinent souvent cette métrique avec d'autres évaluations comme le score BLEU, ROUGE ou des évaluations humaines pour obtenir une vision complète des performances d'un modèle.
Étymologie
Le terme « perplexité » vient du latin « perplexitas » signifiant confusion ou embarras. En théorie de l'information, il a été adopté pour exprimer le degré d'incertitude ou de « confusion » d'un modèle probabiliste face à des données. Son usage en traitement du langage naturel remonte aux travaux fondateurs sur les modèles de langage statistiques dans les années 1980.
Exemples concrets
Comparer deux versions d'un modèle fine-tuné sur un corpus spécialisé
Évalue la perplexité de ce modèle fine-tuné sur le corpus de test médical et compare-la avec le modèle de base pour mesurer l'amélioration.
Diagnostiquer la qualité d'un prompt en analysant la confiance du modèle
Génère une réponse à cette question et indique ton niveau de confiance pour chaque partie de ta réponse. Si tu hésites fortement entre plusieurs formulations, signale-le.
Sélectionner le meilleur modèle de langage pour une tâche de génération de texte
Compare les perplexités de GPT-4, Claude et Llama 3 sur ce jeu de test composé de 500 articles techniques en français pour déterminer lequel modélise le mieux ce domaine.
Usage pratique
En prompt engineering, comprendre la perplexité aide à formuler des instructions plus précises qui réduisent l'incertitude du modèle. Un prompt riche en contexte et en contraintes claires oriente le modèle vers des zones de faible perplexité, produisant des réponses plus cohérentes et prévisibles. Lors du choix ou de l'évaluation d'un LLM, comparer les perplexités sur votre corpus métier permet d'identifier le modèle le mieux adapté à votre domaine.
Concepts liés
FAQ
Qu'est-ce qu'une bonne valeur de perplexité pour un modèle de langage ?
Quelle est la différence entre perplexité et température dans un LLM ?
Peut-on utiliser la perplexité pour détecter du texte généré par une IA ?
Voir aussi
Recevez de nouveaux prompts chaque semaine
Rejoignez notre newsletter.