P

Precision Recall : Définition et Exemples

La précision (precision) et le rappel (recall) sont deux métriques complémentaires utilisées pour évaluer la qualité des résultats d'un modèle de classification ou de recherche d'information. La précision mesure la proportion de résultats pertinents parmi ceux retournés, tandis que le rappel mesure la proportion de résultats pertinents effectivement retrouvés.

Définition complète

La précision et le rappel sont des métriques fondamentales en intelligence artificielle et en recherche d'information. Elles permettent d'évaluer la performance d'un système qui doit identifier des éléments pertinents parmi un ensemble de données. Ces deux mesures sont indissociables car elles capturent deux facettes différentes de la qualité d'un résultat.

La précision (precision) répond à la question : « Parmi tous les éléments que le modèle a identifiés comme positifs, combien le sont réellement ? » Par exemple, si un filtre anti-spam classe 100 emails comme spam et que 90 d'entre eux sont effectivement du spam, la précision est de 90 %. Un système à haute précision produit peu de faux positifs. Le rappel (recall), quant à lui, répond à la question : « Parmi tous les éléments réellement positifs, combien ont été correctement identifiés ? » Si la boîte de réception contient 120 spams au total et que le filtre en détecte 90, le rappel est de 75 %.

Il existe généralement un compromis entre ces deux métriques, connu sous le nom de trade-off précision-rappel. Augmenter la précision tend à diminuer le rappel, et inversement. Un système très conservateur aura une haute précision mais un faible rappel (il ne signale que les cas dont il est sûr), tandis qu'un système permissif aura un haut rappel mais une précision plus faible (il capture tout, y compris des faux positifs). Le F1-score, moyenne harmonique de la précision et du rappel, permet de trouver un équilibre entre les deux.

Dans le contexte du prompt engineering, comprendre ces métriques aide à formuler des instructions plus efficaces. Lorsqu'on demande à un LLM d'extraire des informations ou de classifier du contenu, on peut orienter ses réponses vers plus de précision (« ne retourne que les résultats dont tu es certain ») ou plus de rappel (« liste tous les éléments possibles, même incertains »). Cette compréhension est essentielle pour calibrer les attentes et affiner les résultats obtenus.

Étymologie

Les termes « precision » et « recall » proviennent du domaine de la recherche d'information (information retrieval), où ils ont été formalisés dans les années 1950-1960. Le mot « precision » vient du latin praecisio (action de couper, exactitude), tandis que « recall » vient de l'anglais to recall (se rappeler, retrouver). En français, on utilise parfois les termes « taux de précision » et « taux de rappel » ou « sensibilité » pour le rappel dans le domaine médical.

Exemples concrets

Extraction d'entités nommées dans un document

Extrais toutes les entreprises mentionnées dans ce texte. Privilégie le rappel : liste chaque mention possible, même si tu n'es pas certain à 100 % qu'il s'agit d'une entreprise. Indique ton niveau de confiance pour chaque entrée.

Classification de tickets support

Classe ce ticket support dans une des catégories suivantes : bug, demande de fonctionnalité, question. Ne classe le ticket que si tu es confiant à plus de 90 % — sinon, réponds 'incertain'. Je préfère la précision au rappel ici.

Détection de contenu inapproprié dans des commentaires

Analyse ces commentaires et signale ceux qui contiennent du contenu offensant. Il vaut mieux signaler un faux positif que de laisser passer un commentaire offensant — privilégie le rappel.

Usage pratique

En prompt engineering, maîtriser le compromis précision-rappel permet de calibrer les réponses d'un LLM selon le cas d'usage. Pour des tâches critiques (diagnostic médical, détection de fraude), on privilégiera le rappel pour ne rien manquer. Pour des tâches où les faux positifs sont coûteux (envoi d'alertes, recommandations clients), on privilégiera la précision en ajoutant des seuils de confiance dans le prompt.

Concepts liés

F1-ScoreMatrice de confusionAccuracyCourbe ROC

FAQ

Quelle est la différence entre précision et accuracy ?
L'accuracy (exactitude) mesure le pourcentage total de prédictions correctes, positives et négatives confondues. La précision, elle, se concentre uniquement sur les prédictions positives : parmi les éléments identifiés comme positifs, combien le sont réellement ? Sur des données déséquilibrées (par exemple 95 % de cas négatifs), l'accuracy peut être trompeusement élevée alors que la précision révèle la vraie performance sur la classe d'intérêt.
Comment choisir entre précision et rappel dans un prompt ?
Le choix dépend du coût des erreurs. Si manquer un élément pertinent est grave (ex. : détection de maladies), privilégiez le rappel en demandant au modèle de lister tous les cas possibles. Si un faux positif est coûteux (ex. : bloquer un utilisateur légitime), privilégiez la précision en demandant au modèle de ne retourner que les résultats à haute confiance. Vous pouvez expliciter ce compromis directement dans votre prompt.
Qu'est-ce que le F1-Score et quand l'utiliser ?
Le F1-Score est la moyenne harmonique de la précision et du rappel : F1 = 2 × (précision × rappel) / (précision + rappel). Il est particulièrement utile quand on veut un équilibre entre les deux métriques et que les données sont déséquilibrées. Un F1-Score de 1 indique une précision et un rappel parfaits, tandis qu'un score proche de 0 signale une mauvaise performance sur au moins l'une des deux métriques.

Voir aussi

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.