F1 Score : Définition et Exemples

Le F1 Score est une métrique d'évaluation qui combine la précision et le rappel en une seule valeur, calculée comme leur moyenne harmonique. Il est particulièrement utile pour évaluer les performances d'un modèle sur des jeux de données déséquilibrés.

Définition complète

Le F1 Score est une métrique fondamentale en apprentissage automatique et en traitement du langage naturel. Il représente la moyenne harmonique de la précision (proportion de prédictions positives correctes) et du rappel (proportion de vrais positifs détectés). Sa formule est : F1 = 2 × (Précision × Rappel) / (Précision + Rappel). Le score varie entre 0 et 1, où 1 indique une performance parfaite.

L'intérêt principal du F1 Score réside dans sa capacité à équilibrer deux objectifs souvent contradictoires. Un modèle peut avoir une excellente précision en étant très sélectif (peu de faux positifs), mais au détriment du rappel (beaucoup de faux négatifs). Inversement, un modèle qui prédit « positif » pour tout aura un rappel parfait mais une précision médiocre. Le F1 Score pénalise ces déséquilibres grâce à la moyenne harmonique, qui tire la valeur vers le plus faible des deux scores.

Dans le contexte du prompt engineering, le F1 Score est couramment utilisé pour évaluer la qualité des réponses générées par un LLM, notamment pour les tâches de classification, d'extraction d'entités ou de question-réponse. Par exemple, lorsqu'on demande à un modèle d'extraire des informations d'un texte, on peut mesurer si toutes les informations pertinentes ont été trouvées (rappel) et si les informations extraites sont effectivement correctes (précision).

Il existe plusieurs variantes du F1 Score pour les problèmes multi-classes : le F1 macro (moyenne non pondérée des F1 par classe), le F1 micro (calcul global sur toutes les prédictions) et le F1 pondéré (moyenne pondérée par le nombre d'exemples par classe). Le choix de la variante dépend de l'importance relative accordée à chaque classe dans le problème traité.

Étymologie

Le terme « F1 Score » provient de la famille des F-mesures (ou F-scores) introduites par C.J. van Rijsbergen en 1979 dans le domaine de la recherche d'information. Le « 1 » dans F1 indique que la précision et le rappel sont pondérés de manière égale (paramètre β = 1). La formule générale Fβ permet d'ajuster ce poids : F2 favorise le rappel, F0.5 favorise la précision.

Exemples concrets

Évaluation d'un classificateur de spam

Évalue les performances de mon classificateur de spam en calculant le F1 Score. Voici les résultats : 85 vrais positifs, 10 faux positifs, 15 faux négatifs, 890 vrais négatifs. Explique si ce score est satisfaisant pour un filtre anti-spam.

Extraction d'entités nommées avec un LLM

Extrais toutes les entreprises mentionnées dans ce texte. Je comparerai ta réponse avec une liste de référence pour calculer le F1 Score. Sois exhaustif (bon rappel) tout en évitant les faux positifs (bonne précision).

Comparaison de prompts pour une tâche de classification

J'ai testé trois variantes de prompt pour classifier des avis clients en positif/négatif/neutre. Voici les F1 Scores macro obtenus : Prompt A = 0.72, Prompt B = 0.81, Prompt C = 0.78. Analyse ces résultats et suggère des pistes d'amélioration pour le prompt le plus performant.

Usage pratique

En prompt engineering, le F1 Score sert à comparer objectivement différentes formulations de prompts sur des tâches mesurables comme la classification ou l'extraction d'information. Pour l'utiliser, préparez un jeu de test avec des réponses attendues, exécutez votre prompt sur chaque exemple, puis calculez précision, rappel et F1. Privilégiez le F1 macro si toutes les classes sont importantes, ou le F1 pondéré si certaines classes sont plus fréquentes.

Concepts liés

Précision (Precision)Rappel (Recall)Matrice de confusionCourbe ROC-AUC

FAQ

Quelle est la différence entre le F1 Score et l'accuracy ?

L'accuracy mesure le pourcentage global de prédictions correctes, tandis que le F1 Score se concentre sur l'équilibre entre précision et rappel. Sur un jeu de données déséquilibré (par exemple 95% de négatifs), un modèle qui prédit toujours « négatif » aura 95% d'accuracy mais un F1 Score de 0 sur la classe positive. Le F1 Score est donc plus informatif lorsque les classes sont déséquilibrées.

Quand faut-il utiliser le F2 Score plutôt que le F1 Score ?

Le F2 Score accorde deux fois plus d'importance au rappel qu'à la précision. Il est préférable dans les cas où manquer un vrai positif est plus coûteux qu'un faux positif, par exemple en diagnostic médical ou en détection de fraude. À l'inverse, le F0.5 Score favorise la précision, utile quand les faux positifs sont très coûteux.

Comment interpréter un F1 Score pour un modèle de langage ?

Un F1 Score supérieur à 0.9 est généralement excellent, entre 0.7 et 0.9 est bon, et en dessous de 0.7 indique des axes d'amélioration significatifs. Cependant, l'interprétation dépend fortement de la tâche et du domaine. Pour une tâche d'extraction d'entités complexe, un F1 de 0.75 peut être très bon, tandis que pour une classification binaire simple, on attendrait au moins 0.85.

Voir aussi

Précision Rappel Matrice de confusion Benchmark Fine-tuning NLP

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.