Loss Function : Définition et Exemples
Une loss function (fonction de perte) est une formule mathématique qui mesure l'écart entre les prédictions d'un modèle d'IA et les résultats attendus. Elle guide l'apprentissage en quantifiant l'erreur à minimiser.
Définition complète
La loss function, ou fonction de perte, est un pilier fondamental de l'apprentissage automatique. Son rôle est simple à comprendre : elle attribue un score numérique à chaque prédiction du modèle, indiquant à quel point cette prédiction s'éloigne de la réalité. Plus ce score est élevé, plus le modèle se trompe. L'objectif de l'entraînement est donc de minimiser cette valeur.
Concrètement, pendant l'entraînement d'un réseau de neurones, chaque lot de données passe à travers le modèle qui produit une prédiction. La loss function compare cette prédiction à la valeur réelle (le label) et calcule une erreur. Cette erreur est ensuite rétropropagée dans le réseau pour ajuster les poids des neurones via un optimiseur comme SGD ou Adam. Ce cycle se répète des millions de fois jusqu'à ce que la perte converge vers un minimum.
Il existe de nombreuses fonctions de perte adaptées à différentes tâches. Pour la classification, on utilise typiquement la cross-entropy loss, qui pénalise fortement les prédictions confiantes mais incorrectes. Pour la régression, la mean squared error (MSE) ou la mean absolute error (MAE) sont courantes. Des tâches plus spécialisées comme la génération de texte ou la détection d'objets utilisent des fonctions de perte sur mesure.
Le choix de la loss function influence directement le comportement du modèle. Une fonction mal choisie peut conduire à un modèle qui optimise le mauvais objectif : par exemple, utiliser la MSE pour un problème de classification déséquilibré produira un modèle médiocre. En prompt engineering, comprendre la loss function permet de mieux anticiper les biais et les comportements des modèles de langage, car c'est elle qui a façonné leurs réponses pendant l'entraînement.
Étymologie
Le terme « loss » (perte) vient de la théorie de la décision statistique, où l'on parle de « loss » pour désigner le coût associé à une mauvaise décision. Le concept a été formalisé par Abraham Wald dans les années 1940 dans ses travaux sur la théorie statistique de la décision. En français, on parle indifféremment de « fonction de perte », « fonction de coût » (cost function) ou « fonction objectif » (objective function), bien que ces termes aient des nuances techniques.
Exemples concrets
Comprendre pourquoi un modèle hallucine
Le modèle GPT génère parfois des informations fausses avec grande confiance. Explique comment la cross-entropy loss utilisée pendant l'entraînement peut contribuer à ce phénomène d'hallucination.
Choisir la bonne loss function pour un projet
Je construis un modèle de détection de fraude bancaire où seulement 0,1% des transactions sont frauduleuses. Quelle loss function me recommandes-tu et pourquoi ? Compare cross-entropy standard, focal loss et weighted cross-entropy pour mon cas.
Expliquer un concept technique simplement
Explique la loss function à quelqu'un qui n'a aucune formation en mathématiques. Utilise une analogie avec un jeu de fléchettes et montre comment le concept s'applique à l'entraînement de ChatGPT.
Usage pratique
En prompt engineering, comprendre la loss function aide à formuler des instructions plus efficaces. Par exemple, savoir que les LLM sont entraînés avec une cross-entropy sur la prédiction du token suivant explique pourquoi ils sont naturellement meilleurs en complétion qu'en raisonnement abstrait. Cette connaissance permet d'adapter ses prompts pour exploiter les forces du modèle plutôt que de lutter contre ses limitations architecturales.
Concepts liés
FAQ
Quelle est la différence entre une loss function et une métrique d'évaluation ?
Pourquoi les LLM comme ChatGPT utilisent-ils la cross-entropy loss ?
Comment le RLHF modifie-t-il la loss function des modèles de langage ?
Voir aussi
Recevez de nouveaux prompts chaque semaine
Rejoignez notre newsletter.