Confusion Matrix : Définition et Exemples
Une matrice de confusion est un tableau qui résume les performances d'un modèle de classification en comparant les prédictions du modèle aux valeurs réelles, en détaillant les vrais positifs, vrais négatifs, faux positifs et faux négatifs.
Définition complète
La matrice de confusion (ou tableau de contingence) est un outil fondamental en machine learning pour évaluer la qualité d'un modèle de classification. Elle se présente sous la forme d'un tableau carré où chaque ligne représente les instances d'une classe réelle et chaque colonne représente les instances d'une classe prédite (ou inversement selon la convention). Pour une classification binaire, elle contient quatre valeurs clés : les vrais positifs (VP), les vrais négatifs (VN), les faux positifs (FP) et les faux négatifs (FN).
Les vrais positifs correspondent aux cas correctement identifiés comme positifs, tandis que les vrais négatifs sont les cas correctement identifiés comme négatifs. Les faux positifs (aussi appelés erreurs de type I) sont les cas négatifs incorrectement classés comme positifs, et les faux négatifs (erreurs de type II) sont les cas positifs incorrectement classés comme négatifs. Cette décomposition permet de comprendre non seulement combien d'erreurs le modèle commet, mais surtout quel type d'erreurs il fait.
À partir de la matrice de confusion, on peut dériver de nombreuses métriques essentielles : la précision (proportion de vrais positifs parmi les prédictions positives), le rappel ou sensibilité (proportion de vrais positifs parmi les cas réellement positifs), la spécificité, le F1-score, et l'exactitude globale (accuracy). Chacune de ces métriques éclaire un aspect différent de la performance du modèle.
Dans le contexte du prompt engineering, comprendre la matrice de confusion est crucial lorsqu'on travaille avec des LLM pour des tâches de classification (analyse de sentiment, détection de spam, catégorisation de texte). Elle permet d'identifier si le modèle a tendance à sur-classer ou sous-classer certaines catégories, et d'ajuster les prompts en conséquence pour réduire un type d'erreur spécifique.
Étymologie
Le terme « matrice de confusion » tire son nom du fait qu'elle permet de visualiser si un modèle de classification « confond » certaines classes entre elles. Le mot « matrice » fait référence à sa structure tabulaire mathématique. Le concept a été introduit dans les années 1950-1960 dans le domaine de la psychologie expérimentale et de la théorie de la détection du signal, avant d'être largement adopté en statistiques et en intelligence artificielle.
Exemples concrets
Évaluation d'un classifieur de sentiments
Voici les résultats de classification de 100 avis clients. Construis une matrice de confusion et calcule la précision, le rappel et le F1-score pour chaque classe (positif, négatif, neutre). Identifie quelle classe est la plus souvent confondue avec une autre.
Optimisation d'un prompt de détection de spam
Tu es un détecteur de spam. Classe chaque email comme 'spam' ou 'légitime'. Priorise la minimisation des faux positifs (emails légitimes classés comme spam) plutôt que des faux négatifs, car un email important manqué est plus grave qu'un spam non filtré.
Diagnostic médical assisté par IA
Analyse ces résultats de dépistage et génère la matrice de confusion correspondante. Calcule la sensibilité et la spécificité du test. Explique pourquoi, dans un contexte de dépistage, un rappel élevé est préférable à une précision élevée.
Usage pratique
En prompt engineering, la matrice de confusion vous aide à évaluer et améliorer vos prompts de classification. Après avoir testé un prompt sur un jeu de données étiquetées, construisez la matrice pour identifier les confusions systématiques du modèle. Ajustez ensuite votre prompt en ajoutant des instructions spécifiques pour les cas ambigus, ou en fournissant des exemples few-shot ciblant les erreurs les plus fréquentes.
Concepts liés
FAQ
Quelle est la différence entre la matrice de confusion et l'accuracy ?
Comment lire une matrice de confusion pour un problème multiclasse ?
Quand faut-il privilégier la précision par rapport au rappel ?
Voir aussi
Recevez de nouveaux prompts chaque semaine
Rejoignez notre newsletter.