Rouge Score : Définition et Exemples
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) est une famille de métriques automatiques utilisées pour évaluer la qualité des résumés générés par des modèles de langage en les comparant à des résumés de référence produits par des humains.
Définition complète
ROUGE Score est un ensemble de métriques d'évaluation automatique conçu à l'origine pour mesurer la qualité des résumés de texte. Développé par Chin-Yew Lin en 2004, ROUGE compare un texte généré automatiquement à un ou plusieurs textes de référence rédigés par des humains, en mesurant le chevauchement entre les deux. Plus le score est élevé (sur une échelle de 0 à 1), plus le texte généré est proche de la référence humaine.
La famille ROUGE comprend plusieurs variantes. ROUGE-N mesure le chevauchement de n-grammes (séquences de N mots consécutifs) entre le texte généré et la référence. ROUGE-1 compare les mots individuels (unigrammes), ROUGE-2 les paires de mots consécutifs (bigrammes), et ainsi de suite. ROUGE-L, quant à lui, utilise la plus longue sous-séquence commune (LCS) pour capturer la similarité structurelle entre les textes, même si les mots ne sont pas strictement consécutifs.
En prompt engineering, comprendre le ROUGE Score est essentiel lorsqu'on travaille sur des tâches de génération de texte, notamment le résumé automatique, la traduction ou la reformulation. Cette métrique permet d'évaluer objectivement si un prompt produit des résultats fidèles au contenu attendu. Par exemple, en comparant les sorties de différents prompts avec un texte de référence, on peut identifier quelle formulation génère les résumés les plus complets et pertinents.
Il est important de noter que ROUGE mesure principalement le rappel lexical — c'est-à-dire la présence des bons mots — mais ne capture pas nécessairement la cohérence sémantique, la fluidité ou la factualité d'un texte. C'est pourquoi ROUGE est souvent utilisé en complément d'autres métriques comme BLEU, BERTScore ou l'évaluation humaine pour obtenir une vision plus complète de la qualité d'un texte généré.
Étymologie
ROUGE est l'acronyme de « Recall-Oriented Understudy for Gisting Evaluation », littéralement « substitut orienté rappel pour l'évaluation de la synthèse ». Le nom fait aussi un clin d'œil à la métrique BLEU (Bilingual Evaluation Understudy) utilisée en traduction automatique, créant un jeu de mots chromatique entre les deux métriques complémentaires.
Exemples concrets
Évaluer la qualité d'un résumé automatique
Résume ce rapport financier en 3 phrases. Ensuite, je comparerai ton résumé avec mon résumé de référence en utilisant le score ROUGE-2 pour vérifier que les informations clés sont bien couvertes.
Comparer deux variantes de prompts pour une tâche de synthèse
Voici un article de presse. Génère un résumé en utilisant d'abord un style factuel, puis un style narratif. Je mesurerai le ROUGE-L de chaque version par rapport à mon résumé gold standard pour déterminer laquelle est la plus fidèle.
Optimiser un pipeline de génération de contenu en production
Tu es un évaluateur de qualité. Compare le texte A (généré) avec le texte B (référence). Identifie les passages du texte B absents du texte A, ce qui correspondrait à un faible score ROUGE-1 en rappel.
Usage pratique
En prompt engineering, le ROUGE Score sert principalement à itérer sur vos prompts de résumé ou de reformulation : générez plusieurs variantes, mesurez leur ROUGE par rapport à une référence humaine, et conservez le prompt qui maximise le score. Utilisez ROUGE-1 pour vérifier la couverture du vocabulaire clé, ROUGE-2 pour la fidélité des expressions, et ROUGE-L pour la structure globale. Combinez toujours ROUGE avec une relecture humaine, car un score élevé ne garantit ni la fluidité ni l'absence d'hallucinations.
Concepts liés
FAQ
Quelle est la différence entre ROUGE-1, ROUGE-2 et ROUGE-L ?
Un score ROUGE élevé garantit-il un bon résumé ?
Comment calculer un score ROUGE en pratique ?
Voir aussi
Recevez de nouveaux prompts chaque semaine
Rejoignez notre newsletter.