P

Accuracy : Définition et Exemples

L'accuracy (ou exactitude) mesure la proportion de réponses correctes produites par un modèle d'IA par rapport à l'ensemble des réponses générées. C'est l'une des métriques fondamentales pour évaluer la fiabilité d'un système d'intelligence artificielle.

Définition complète

L'accuracy, ou exactitude en français, est une métrique d'évaluation qui quantifie la capacité d'un modèle d'intelligence artificielle à produire des résultats corrects. Elle se calcule en divisant le nombre de prédictions correctes par le nombre total de prédictions effectuées. Un modèle avec une accuracy de 95 % signifie qu'il donne la bonne réponse 95 fois sur 100.

Dans le contexte des grands modèles de langage (LLM) comme GPT-4 ou Claude, l'accuracy prend une dimension plus nuancée. Contrairement à un classificateur binaire où la réponse est soit juste soit fausse, un LLM génère du texte libre dont la justesse peut être partielle, contextuelle ou subjective. On parle alors d'accuracy factuelle (les faits énoncés sont-ils vérifiables ?), d'accuracy sémantique (le sens de la réponse correspond-il à la question ?) ou d'accuracy logique (le raisonnement est-il cohérent ?).

En prompt engineering, l'accuracy est directement influencée par la qualité des instructions données au modèle. Un prompt vague ou ambigu produira des réponses moins précises, tandis qu'un prompt structuré avec des contraintes claires, des exemples et un format de sortie défini améliorera significativement l'exactitude des résultats. Des techniques comme le Chain-of-Thought, le few-shot prompting ou la vérification croisée permettent d'augmenter l'accuracy de manière mesurable.

Il est important de noter que l'accuracy seule ne suffit pas toujours à évaluer un modèle. Sur des jeux de données déséquilibrés, un modèle peut afficher une accuracy élevée tout en échouant systématiquement sur les cas minoritaires. C'est pourquoi on la complète souvent par d'autres métriques comme la précision, le recall ou le F1-score pour obtenir une vision plus complète de la performance.

Étymologie

Le terme « accuracy » vient du latin « accuratus », participe passé de « accurare » signifiant « faire avec soin ». En anglais, il s'est imposé dans le vocabulaire scientifique pour désigner l'exactitude d'une mesure. En intelligence artificielle, il a été adopté tel quel comme métrique standard dès les premiers travaux en apprentissage automatique dans les années 1950-1960.

Exemples concrets

Classification d'images : évaluer si un modèle identifie correctement des photos de chats et de chiens

Analyse cette image et identifie l'animal présent. Réponds uniquement par 'chat' ou 'chien'. Justifie ton choix en une phrase.

Vérification factuelle : s'assurer qu'un LLM ne génère pas d'hallucinations sur des données historiques

Réponds à la question suivante en te basant uniquement sur des faits vérifiables. Si tu n'es pas certain d'une information, indique-le explicitement plutôt que d'inventer. Question : En quelle année la Tour Eiffel a-t-elle été construite ?

Extraction de données structurées : mesurer la capacité du modèle à extraire correctement des informations d'un texte

Extrais les informations suivantes de ce CV au format JSON : nom, email, années d'expérience, compétences principales. Si une information est absente, utilise null. Ne déduis rien qui ne soit pas explicitement mentionné.

Usage pratique

Pour améliorer l'accuracy de vos prompts, soyez explicite sur le format de sortie attendu et fournissez des exemples concrets de réponses correctes (few-shot prompting). Utilisez des instructions de vérification comme « Vérifie ta réponse avant de la donner » ou « Si tu n'es pas sûr, dis-le » pour réduire les erreurs. Enfin, décomposez les tâches complexes en étapes successives (Chain-of-Thought) afin que le modèle raisonne de manière plus rigoureuse.

Concepts liés

Précision (Precision)Rappel (Recall)F1-ScoreHallucination

FAQ

Quelle est la différence entre accuracy et précision en IA ?
L'accuracy mesure le taux global de réponses correctes parmi toutes les prédictions, tandis que la précision (precision) mesure la proportion de vrais positifs parmi les éléments identifiés comme positifs. Par exemple, si un modèle détecte des spams, l'accuracy indique son taux de réussite global, alors que la précision indique combien d'emails marqués comme spam l'étaient réellement.
Peut-on mesurer l'accuracy d'un grand modèle de langage (LLM) ?
Oui, mais c'est plus complexe que pour un classificateur classique. On utilise des benchmarks standardisés (MMLU, HumanEval, GSM8K) qui posent des questions avec des réponses vérifiables. Pour les tâches ouvertes comme la rédaction, on recourt à des évaluations humaines ou à des modèles juges (LLM-as-a-Judge) qui notent la qualité et l'exactitude des réponses.
Comment le prompt engineering peut-il améliorer l'accuracy d'un modèle ?
Le prompt engineering améliore l'accuracy en réduisant l'ambiguïté des instructions, en fournissant du contexte pertinent et en guidant le raisonnement du modèle. Des techniques comme le few-shot prompting (donner des exemples), le Chain-of-Thought (demander au modèle de raisonner étape par étape) ou l'ajout de contraintes explicites (« réponds uniquement avec des faits vérifiés ») permettent d'augmenter significativement le taux de réponses correctes.

Voir aussi

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.