BLEU Score : Définition et Exemples
Le BLEU Score (Bilingual Evaluation Understudy) est une métrique automatique qui évalue la qualité d'un texte généré par une machine en le comparant à une ou plusieurs traductions de référence humaines.
Définition complète
Le BLEU Score est l'une des métriques les plus utilisées en traitement automatique du langage naturel (NLP) pour évaluer la qualité des textes produits par des systèmes de traduction automatique ou de génération de texte. Développé par Kishore Papineni et son équipe chez IBM en 2002, il mesure le degré de chevauchement entre un texte candidat (généré par la machine) et un ou plusieurs textes de référence (produits par des humains).
Concrètement, le BLEU Score fonctionne en comparant des séquences de mots (appelées n-grammes) entre le texte généré et les références. Il calcule la précision des n-grammes : combien de groupes de 1 mot (unigrammes), 2 mots (bigrammes), 3 mots (trigrammes) et 4 mots (quadrigrammes) du texte candidat se retrouvent dans les références. Le score final combine ces précisions avec une pénalité de brièveté qui sanctionne les textes trop courts par rapport aux références.
Le score varie de 0 à 1 (souvent exprimé en pourcentage de 0 à 100). Un score de 1 signifie une correspondance parfaite avec la référence, ce qui est extrêmement rare en pratique. En traduction automatique, un score BLEU supérieur à 30 est généralement considéré comme acceptable, et au-delà de 50 comme très bon. Il est important de noter que le BLEU Score mesure principalement la fidélité lexicale et ne capture pas nécessairement la fluidité, le sens ou la qualité stylistique d'un texte.
Dans le contexte du prompt engineering, comprendre le BLEU Score permet d'évaluer objectivement si les réponses d'un modèle de langage correspondent aux résultats attendus. C'est particulièrement utile lorsqu'on itère sur des prompts pour des tâches de traduction, de résumé ou de reformulation, car il fournit un indicateur chiffré pour comparer différentes versions de prompts entre elles.
Étymologie
BLEU est un acronyme pour « Bilingual Evaluation Understudy » (littéralement « doublure d'évaluation bilingue »). Le terme « understudy » fait référence au monde du théâtre où la doublure remplace l'acteur principal — ici, la métrique automatique remplace (ou supplée) l'évaluation humaine. La métrique a été introduite dans l'article fondateur de Papineni et al. en 2002 : « BLEU: a Method for Automatic Evaluation of Machine Translation ».
Exemples concrets
Évaluation d'un prompt de traduction
Traduis le texte suivant en anglais de manière fidèle et naturelle : 'Les avancées récentes en intelligence artificielle transforment notre quotidien.' Puis compare ta traduction avec cette référence : 'Recent advances in artificial intelligence are transforming our daily lives.'
Comparaison de deux variantes de prompts pour un résumé
Résume ce paragraphe en exactement deux phrases en conservant les informations clés. Je vais mesurer la qualité de ton résumé avec le BLEU Score par rapport à un résumé de référence.
Benchmark d'un modèle sur un dataset de traduction
Évalue les performances de ce modèle sur le dataset WMT14 français-anglais en calculant le BLEU Score sur l'ensemble du corpus de test.
Usage pratique
En prompt engineering, le BLEU Score sert à mesurer objectivement la qualité des sorties d'un LLM lorsqu'on dispose de réponses de référence. On l'utilise notamment pour comparer l'efficacité de différentes formulations de prompts sur des tâches de traduction ou de reformulation. Pour l'appliquer, il suffit de collecter les sorties du modèle pour chaque variante de prompt, puis de calculer le BLEU Score avec une bibliothèque comme sacrebleu ou nltk.translate.bleu_score en Python.
Concepts liés
FAQ
Qu'est-ce qu'un bon BLEU Score ?
Quelles sont les limites du BLEU Score ?
Comment calculer le BLEU Score en pratique ?
Voir aussi
Recevez de nouveaux prompts chaque semaine
Rejoignez notre newsletter.