Question 1

Quelle est la différence entre ROUGE-1, ROUGE-2 et ROUGE-L ?

Accepted Answer

ROUGE-1 compare les mots individuels entre le texte généré et la référence (unigrammes), ce qui mesure la couverture lexicale de base. ROUGE-2 compare les paires de mots consécutifs (bigrammes), capturant mieux la fidélité des expressions et tournures. ROUGE-L utilise la plus longue sous-séquence commune, ce qui permet de mesurer la similarité structurelle sans exiger que les mots soient strictement adjacents. En pratique, ROUGE-2 et ROUGE-L sont les plus informatifs pour évaluer la qualité d'un résumé.

Question 2

Un score ROUGE élevé garantit-il un bon résumé ?

Accepted Answer

Non. ROUGE mesure le chevauchement lexical avec une référence, mais ne capture pas la cohérence, la factualité ou la lisibilité. Un texte peut obtenir un bon score ROUGE en répétant les mots-clés de la référence tout en étant mal structuré ou en contenant des erreurs factuelles. C'est pourquoi il est recommandé de combiner ROUGE avec d'autres métriques (BERTScore pour la similarité sémantique, évaluation humaine pour la qualité perçue) et de ne jamais s'y fier comme unique indicateur.

Question 3

Comment calculer un score ROUGE en pratique ?

Accepted Answer

La méthode la plus simple est d'utiliser la bibliothèque Python « rouge-score » de Google ou le package « evaluate » de Hugging Face. Il suffit de fournir le texte généré et le texte de référence, puis la bibliothèque retourne les scores de précision, rappel et F1 pour chaque variante ROUGE. Des notebooks Jupyter et des outils en ligne gratuits existent également pour des tests rapides sans écrire de code.

Rouge Score : Définition et Exemples

Définition complète

Étymologie

Exemples concrets

Usage pratique

Concepts liés

FAQ

Voir aussi

Recevez de nouveaux prompts chaque semaine