P

Rouge Score : Définition et Exemples

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) est une famille de métriques automatiques utilisées pour évaluer la qualité des résumés générés par des modèles de langage en les comparant à des résumés de référence produits par des humains.

Définition complète

ROUGE Score est un ensemble de métriques d'évaluation automatique conçu à l'origine pour mesurer la qualité des résumés de texte. Développé par Chin-Yew Lin en 2004, ROUGE compare un texte généré automatiquement à un ou plusieurs textes de référence rédigés par des humains, en mesurant le chevauchement entre les deux. Plus le score est élevé (sur une échelle de 0 à 1), plus le texte généré est proche de la référence humaine.

La famille ROUGE comprend plusieurs variantes. ROUGE-N mesure le chevauchement de n-grammes (séquences de N mots consécutifs) entre le texte généré et la référence. ROUGE-1 compare les mots individuels (unigrammes), ROUGE-2 les paires de mots consécutifs (bigrammes), et ainsi de suite. ROUGE-L, quant à lui, utilise la plus longue sous-séquence commune (LCS) pour capturer la similarité structurelle entre les textes, même si les mots ne sont pas strictement consécutifs.

En prompt engineering, comprendre le ROUGE Score est essentiel lorsqu'on travaille sur des tâches de génération de texte, notamment le résumé automatique, la traduction ou la reformulation. Cette métrique permet d'évaluer objectivement si un prompt produit des résultats fidèles au contenu attendu. Par exemple, en comparant les sorties de différents prompts avec un texte de référence, on peut identifier quelle formulation génère les résumés les plus complets et pertinents.

Il est important de noter que ROUGE mesure principalement le rappel lexical — c'est-à-dire la présence des bons mots — mais ne capture pas nécessairement la cohérence sémantique, la fluidité ou la factualité d'un texte. C'est pourquoi ROUGE est souvent utilisé en complément d'autres métriques comme BLEU, BERTScore ou l'évaluation humaine pour obtenir une vision plus complète de la qualité d'un texte généré.

Étymologie

ROUGE est l'acronyme de « Recall-Oriented Understudy for Gisting Evaluation », littéralement « substitut orienté rappel pour l'évaluation de la synthèse ». Le nom fait aussi un clin d'œil à la métrique BLEU (Bilingual Evaluation Understudy) utilisée en traduction automatique, créant un jeu de mots chromatique entre les deux métriques complémentaires.

Exemples concrets

Évaluer la qualité d'un résumé automatique

Résume ce rapport financier en 3 phrases. Ensuite, je comparerai ton résumé avec mon résumé de référence en utilisant le score ROUGE-2 pour vérifier que les informations clés sont bien couvertes.

Comparer deux variantes de prompts pour une tâche de synthèse

Voici un article de presse. Génère un résumé en utilisant d'abord un style factuel, puis un style narratif. Je mesurerai le ROUGE-L de chaque version par rapport à mon résumé gold standard pour déterminer laquelle est la plus fidèle.

Optimiser un pipeline de génération de contenu en production

Tu es un évaluateur de qualité. Compare le texte A (généré) avec le texte B (référence). Identifie les passages du texte B absents du texte A, ce qui correspondrait à un faible score ROUGE-1 en rappel.

Usage pratique

En prompt engineering, le ROUGE Score sert principalement à itérer sur vos prompts de résumé ou de reformulation : générez plusieurs variantes, mesurez leur ROUGE par rapport à une référence humaine, et conservez le prompt qui maximise le score. Utilisez ROUGE-1 pour vérifier la couverture du vocabulaire clé, ROUGE-2 pour la fidélité des expressions, et ROUGE-L pour la structure globale. Combinez toujours ROUGE avec une relecture humaine, car un score élevé ne garantit ni la fluidité ni l'absence d'hallucinations.

Concepts liés

BLEU ScoreBERTScoreÉvaluation automatiqueN-grammes

FAQ

Quelle est la différence entre ROUGE-1, ROUGE-2 et ROUGE-L ?
ROUGE-1 compare les mots individuels entre le texte généré et la référence (unigrammes), ce qui mesure la couverture lexicale de base. ROUGE-2 compare les paires de mots consécutifs (bigrammes), capturant mieux la fidélité des expressions et tournures. ROUGE-L utilise la plus longue sous-séquence commune, ce qui permet de mesurer la similarité structurelle sans exiger que les mots soient strictement adjacents. En pratique, ROUGE-2 et ROUGE-L sont les plus informatifs pour évaluer la qualité d'un résumé.
Un score ROUGE élevé garantit-il un bon résumé ?
Non. ROUGE mesure le chevauchement lexical avec une référence, mais ne capture pas la cohérence, la factualité ou la lisibilité. Un texte peut obtenir un bon score ROUGE en répétant les mots-clés de la référence tout en étant mal structuré ou en contenant des erreurs factuelles. C'est pourquoi il est recommandé de combiner ROUGE avec d'autres métriques (BERTScore pour la similarité sémantique, évaluation humaine pour la qualité perçue) et de ne jamais s'y fier comme unique indicateur.
Comment calculer un score ROUGE en pratique ?
La méthode la plus simple est d'utiliser la bibliothèque Python « rouge-score » de Google ou le package « evaluate » de Hugging Face. Il suffit de fournir le texte généré et le texte de référence, puis la bibliothèque retourne les scores de précision, rappel et F1 pour chaque variante ROUGE. Des notebooks Jupyter et des outils en ligne gratuits existent également pour des tests rapides sans écrire de code.

Voir aussi

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.