F1 Score : Définition et Exemples
Le F1 Score est une métrique d'évaluation qui combine la précision et le rappel en une seule valeur, calculée comme leur moyenne harmonique. Il est particulièrement utile pour évaluer les performances d'un modèle sur des jeux de données déséquilibrés.
Définition complète
Le F1 Score est une métrique fondamentale en apprentissage automatique et en traitement du langage naturel. Il représente la moyenne harmonique de la précision (proportion de prédictions positives correctes) et du rappel (proportion de vrais positifs détectés). Sa formule est : F1 = 2 × (Précision × Rappel) / (Précision + Rappel). Le score varie entre 0 et 1, où 1 indique une performance parfaite.
L'intérêt principal du F1 Score réside dans sa capacité à équilibrer deux objectifs souvent contradictoires. Un modèle peut avoir une excellente précision en étant très sélectif (peu de faux positifs), mais au détriment du rappel (beaucoup de faux négatifs). Inversement, un modèle qui prédit « positif » pour tout aura un rappel parfait mais une précision médiocre. Le F1 Score pénalise ces déséquilibres grâce à la moyenne harmonique, qui tire la valeur vers le plus faible des deux scores.
Dans le contexte du prompt engineering, le F1 Score est couramment utilisé pour évaluer la qualité des réponses générées par un LLM, notamment pour les tâches de classification, d'extraction d'entités ou de question-réponse. Par exemple, lorsqu'on demande à un modèle d'extraire des informations d'un texte, on peut mesurer si toutes les informations pertinentes ont été trouvées (rappel) et si les informations extraites sont effectivement correctes (précision).
Il existe plusieurs variantes du F1 Score pour les problèmes multi-classes : le F1 macro (moyenne non pondérée des F1 par classe), le F1 micro (calcul global sur toutes les prédictions) et le F1 pondéré (moyenne pondérée par le nombre d'exemples par classe). Le choix de la variante dépend de l'importance relative accordée à chaque classe dans le problème traité.
Étymologie
Le terme « F1 Score » provient de la famille des F-mesures (ou F-scores) introduites par C.J. van Rijsbergen en 1979 dans le domaine de la recherche d'information. Le « 1 » dans F1 indique que la précision et le rappel sont pondérés de manière égale (paramètre β = 1). La formule générale Fβ permet d'ajuster ce poids : F2 favorise le rappel, F0.5 favorise la précision.
Exemples concrets
Évaluation d'un classificateur de spam
Évalue les performances de mon classificateur de spam en calculant le F1 Score. Voici les résultats : 85 vrais positifs, 10 faux positifs, 15 faux négatifs, 890 vrais négatifs. Explique si ce score est satisfaisant pour un filtre anti-spam.
Extraction d'entités nommées avec un LLM
Extrais toutes les entreprises mentionnées dans ce texte. Je comparerai ta réponse avec une liste de référence pour calculer le F1 Score. Sois exhaustif (bon rappel) tout en évitant les faux positifs (bonne précision).
Comparaison de prompts pour une tâche de classification
J'ai testé trois variantes de prompt pour classifier des avis clients en positif/négatif/neutre. Voici les F1 Scores macro obtenus : Prompt A = 0.72, Prompt B = 0.81, Prompt C = 0.78. Analyse ces résultats et suggère des pistes d'amélioration pour le prompt le plus performant.
Usage pratique
En prompt engineering, le F1 Score sert à comparer objectivement différentes formulations de prompts sur des tâches mesurables comme la classification ou l'extraction d'information. Pour l'utiliser, préparez un jeu de test avec des réponses attendues, exécutez votre prompt sur chaque exemple, puis calculez précision, rappel et F1. Privilégiez le F1 macro si toutes les classes sont importantes, ou le F1 pondéré si certaines classes sont plus fréquentes.
Concepts liés
FAQ
Quelle est la différence entre le F1 Score et l'accuracy ?
Quand faut-il utiliser le F2 Score plutôt que le F1 Score ?
Comment interpréter un F1 Score pour un modèle de langage ?
Voir aussi
Recevez de nouveaux prompts chaque semaine
Rejoignez notre newsletter.