Confusion Matrix : Définition et Exemples

Une matrice de confusion est un tableau qui résume les performances d'un modèle de classification en comparant les prédictions du modèle aux valeurs réelles, en détaillant les vrais positifs, vrais négatifs, faux positifs et faux négatifs.

Définition complète

La matrice de confusion (ou tableau de contingence) est un outil fondamental en machine learning pour évaluer la qualité d'un modèle de classification. Elle se présente sous la forme d'un tableau carré où chaque ligne représente les instances d'une classe réelle et chaque colonne représente les instances d'une classe prédite (ou inversement selon la convention). Pour une classification binaire, elle contient quatre valeurs clés : les vrais positifs (VP), les vrais négatifs (VN), les faux positifs (FP) et les faux négatifs (FN).

Les vrais positifs correspondent aux cas correctement identifiés comme positifs, tandis que les vrais négatifs sont les cas correctement identifiés comme négatifs. Les faux positifs (aussi appelés erreurs de type I) sont les cas négatifs incorrectement classés comme positifs, et les faux négatifs (erreurs de type II) sont les cas positifs incorrectement classés comme négatifs. Cette décomposition permet de comprendre non seulement combien d'erreurs le modèle commet, mais surtout quel type d'erreurs il fait.

À partir de la matrice de confusion, on peut dériver de nombreuses métriques essentielles : la précision (proportion de vrais positifs parmi les prédictions positives), le rappel ou sensibilité (proportion de vrais positifs parmi les cas réellement positifs), la spécificité, le F1-score, et l'exactitude globale (accuracy). Chacune de ces métriques éclaire un aspect différent de la performance du modèle.

Dans le contexte du prompt engineering, comprendre la matrice de confusion est crucial lorsqu'on travaille avec des LLM pour des tâches de classification (analyse de sentiment, détection de spam, catégorisation de texte). Elle permet d'identifier si le modèle a tendance à sur-classer ou sous-classer certaines catégories, et d'ajuster les prompts en conséquence pour réduire un type d'erreur spécifique.

Étymologie

Le terme « matrice de confusion » tire son nom du fait qu'elle permet de visualiser si un modèle de classification « confond » certaines classes entre elles. Le mot « matrice » fait référence à sa structure tabulaire mathématique. Le concept a été introduit dans les années 1950-1960 dans le domaine de la psychologie expérimentale et de la théorie de la détection du signal, avant d'être largement adopté en statistiques et en intelligence artificielle.

Exemples concrets

Évaluation d'un classifieur de sentiments

Voici les résultats de classification de 100 avis clients. Construis une matrice de confusion et calcule la précision, le rappel et le F1-score pour chaque classe (positif, négatif, neutre). Identifie quelle classe est la plus souvent confondue avec une autre.

Optimisation d'un prompt de détection de spam

Tu es un détecteur de spam. Classe chaque email comme 'spam' ou 'légitime'. Priorise la minimisation des faux positifs (emails légitimes classés comme spam) plutôt que des faux négatifs, car un email important manqué est plus grave qu'un spam non filtré.

Diagnostic médical assisté par IA

Analyse ces résultats de dépistage et génère la matrice de confusion correspondante. Calcule la sensibilité et la spécificité du test. Explique pourquoi, dans un contexte de dépistage, un rappel élevé est préférable à une précision élevée.

Usage pratique

En prompt engineering, la matrice de confusion vous aide à évaluer et améliorer vos prompts de classification. Après avoir testé un prompt sur un jeu de données étiquetées, construisez la matrice pour identifier les confusions systématiques du modèle. Ajustez ensuite votre prompt en ajoutant des instructions spécifiques pour les cas ambigus, ou en fournissant des exemples few-shot ciblant les erreurs les plus fréquentes.

Concepts liés

Précision (Precision)Rappel (Recall)F1-ScoreAccuracyCourbe ROCAUCClassification binaireErreur de type I et II

FAQ

Quelle est la différence entre la matrice de confusion et l'accuracy ?

L'accuracy est une métrique unique qui indique le pourcentage global de prédictions correctes, tandis que la matrice de confusion détaille la répartition complète des prédictions par classe. L'accuracy peut être trompeuse avec des classes déséquilibrées : un modèle qui prédit toujours la classe majoritaire aura une accuracy élevée mais sera inutile. La matrice de confusion révèle ce problème en montrant que la classe minoritaire n'est jamais correctement identifiée.

Comment lire une matrice de confusion pour un problème multiclasse ?

Pour un problème à N classes, la matrice est un tableau N×N. La diagonale contient les prédictions correctes pour chaque classe. Les valeurs hors diagonale montrent les confusions : la cellule à la ligne i et colonne j indique combien d'instances de la classe i ont été prédites comme appartenant à la classe j. Les lignes avec beaucoup de valeurs hors diagonale indiquent des classes que le modèle a du mal à reconnaître.

Quand faut-il privilégier la précision par rapport au rappel ?

Privilégiez la précision lorsque le coût des faux positifs est élevé (par exemple, filtrage de spam où un email important classé comme spam est très gênant). Privilégiez le rappel lorsque le coût des faux négatifs est élevé (par exemple, détection de maladies où un cas manqué peut être fatal). En prompt engineering, vous pouvez orienter le modèle vers l'un ou l'autre en ajustant les instructions : « en cas de doute, classe comme positif » favorise le rappel.

Voir aussi

Precision Recall F1-Score Classification Accuracy Few-Shot Prompting Évaluation de modèle Courbe ROC

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.