BLEU Score : Définition et Exemples

Le BLEU Score (Bilingual Evaluation Understudy) est une métrique automatique qui évalue la qualité d'un texte généré par une machine en le comparant à une ou plusieurs traductions de référence humaines.

Définition complète

Le BLEU Score est l'une des métriques les plus utilisées en traitement automatique du langage naturel (NLP) pour évaluer la qualité des textes produits par des systèmes de traduction automatique ou de génération de texte. Développé par Kishore Papineni et son équipe chez IBM en 2002, il mesure le degré de chevauchement entre un texte candidat (généré par la machine) et un ou plusieurs textes de référence (produits par des humains).

Concrètement, le BLEU Score fonctionne en comparant des séquences de mots (appelées n-grammes) entre le texte généré et les références. Il calcule la précision des n-grammes : combien de groupes de 1 mot (unigrammes), 2 mots (bigrammes), 3 mots (trigrammes) et 4 mots (quadrigrammes) du texte candidat se retrouvent dans les références. Le score final combine ces précisions avec une pénalité de brièveté qui sanctionne les textes trop courts par rapport aux références.

Le score varie de 0 à 1 (souvent exprimé en pourcentage de 0 à 100). Un score de 1 signifie une correspondance parfaite avec la référence, ce qui est extrêmement rare en pratique. En traduction automatique, un score BLEU supérieur à 30 est généralement considéré comme acceptable, et au-delà de 50 comme très bon. Il est important de noter que le BLEU Score mesure principalement la fidélité lexicale et ne capture pas nécessairement la fluidité, le sens ou la qualité stylistique d'un texte.

Dans le contexte du prompt engineering, comprendre le BLEU Score permet d'évaluer objectivement si les réponses d'un modèle de langage correspondent aux résultats attendus. C'est particulièrement utile lorsqu'on itère sur des prompts pour des tâches de traduction, de résumé ou de reformulation, car il fournit un indicateur chiffré pour comparer différentes versions de prompts entre elles.

Étymologie

BLEU est un acronyme pour « Bilingual Evaluation Understudy » (littéralement « doublure d'évaluation bilingue »). Le terme « understudy » fait référence au monde du théâtre où la doublure remplace l'acteur principal — ici, la métrique automatique remplace (ou supplée) l'évaluation humaine. La métrique a été introduite dans l'article fondateur de Papineni et al. en 2002 : « BLEU: a Method for Automatic Evaluation of Machine Translation ».

Exemples concrets

Évaluation d'un prompt de traduction

Traduis le texte suivant en anglais de manière fidèle et naturelle : 'Les avancées récentes en intelligence artificielle transforment notre quotidien.' Puis compare ta traduction avec cette référence : 'Recent advances in artificial intelligence are transforming our daily lives.'

Comparaison de deux variantes de prompts pour un résumé

Résume ce paragraphe en exactement deux phrases en conservant les informations clés. Je vais mesurer la qualité de ton résumé avec le BLEU Score par rapport à un résumé de référence.

Benchmark d'un modèle sur un dataset de traduction

Évalue les performances de ce modèle sur le dataset WMT14 français-anglais en calculant le BLEU Score sur l'ensemble du corpus de test.

Usage pratique

En prompt engineering, le BLEU Score sert à mesurer objectivement la qualité des sorties d'un LLM lorsqu'on dispose de réponses de référence. On l'utilise notamment pour comparer l'efficacité de différentes formulations de prompts sur des tâches de traduction ou de reformulation. Pour l'appliquer, il suffit de collecter les sorties du modèle pour chaque variante de prompt, puis de calculer le BLEU Score avec une bibliothèque comme sacrebleu ou nltk.translate.bleu_score en Python.

Concepts liés

ROUGE ScoreMETEORPerplexitéN-grammesTraduction automatiqueBERTScore

FAQ

Qu'est-ce qu'un bon BLEU Score ?

Il n'existe pas de seuil universel, car le score dépend de la tâche et du domaine. En traduction automatique, un BLEU Score entre 25 et 40 est généralement considéré comme correct, et au-dessus de 50 comme excellent. Pour la génération de texte libre, les scores sont souvent plus bas car il existe de nombreuses façons valides d'exprimer la même idée.

Quelles sont les limites du BLEU Score ?

Le BLEU Score ne mesure que la correspondance lexicale (mots et séquences de mots) et ignore la sémantique, la grammaire et la fluidité. Deux phrases ayant le même sens mais des formulations différentes peuvent obtenir un score faible. C'est pourquoi on le combine souvent avec d'autres métriques comme BERTScore (qui mesure la similarité sémantique) ou METEOR (qui prend en compte les synonymes).

Comment calculer le BLEU Score en pratique ?

La méthode la plus simple est d'utiliser la bibliothèque Python sacrebleu (pip install sacrebleu), qui implémente le calcul standard. On peut aussi utiliser nltk.translate.bleu_score pour un calcul phrase par phrase. Il suffit de fournir le texte candidat et une ou plusieurs références, et la bibliothèque retourne le score entre 0 et 1.

Voir aussi

ROUGE Score Perplexité Traduction automatique N-grammes BERTScore Benchmark

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.