P

Loss Function : Définition et Exemples

Une loss function (fonction de perte) est une formule mathématique qui mesure l'écart entre les prédictions d'un modèle d'IA et les résultats attendus. Elle guide l'apprentissage en quantifiant l'erreur à minimiser.

Définition complète

La loss function, ou fonction de perte, est un pilier fondamental de l'apprentissage automatique. Son rôle est simple à comprendre : elle attribue un score numérique à chaque prédiction du modèle, indiquant à quel point cette prédiction s'éloigne de la réalité. Plus ce score est élevé, plus le modèle se trompe. L'objectif de l'entraînement est donc de minimiser cette valeur.

Concrètement, pendant l'entraînement d'un réseau de neurones, chaque lot de données passe à travers le modèle qui produit une prédiction. La loss function compare cette prédiction à la valeur réelle (le label) et calcule une erreur. Cette erreur est ensuite rétropropagée dans le réseau pour ajuster les poids des neurones via un optimiseur comme SGD ou Adam. Ce cycle se répète des millions de fois jusqu'à ce que la perte converge vers un minimum.

Il existe de nombreuses fonctions de perte adaptées à différentes tâches. Pour la classification, on utilise typiquement la cross-entropy loss, qui pénalise fortement les prédictions confiantes mais incorrectes. Pour la régression, la mean squared error (MSE) ou la mean absolute error (MAE) sont courantes. Des tâches plus spécialisées comme la génération de texte ou la détection d'objets utilisent des fonctions de perte sur mesure.

Le choix de la loss function influence directement le comportement du modèle. Une fonction mal choisie peut conduire à un modèle qui optimise le mauvais objectif : par exemple, utiliser la MSE pour un problème de classification déséquilibré produira un modèle médiocre. En prompt engineering, comprendre la loss function permet de mieux anticiper les biais et les comportements des modèles de langage, car c'est elle qui a façonné leurs réponses pendant l'entraînement.

Étymologie

Le terme « loss » (perte) vient de la théorie de la décision statistique, où l'on parle de « loss » pour désigner le coût associé à une mauvaise décision. Le concept a été formalisé par Abraham Wald dans les années 1940 dans ses travaux sur la théorie statistique de la décision. En français, on parle indifféremment de « fonction de perte », « fonction de coût » (cost function) ou « fonction objectif » (objective function), bien que ces termes aient des nuances techniques.

Exemples concrets

Comprendre pourquoi un modèle hallucine

Le modèle GPT génère parfois des informations fausses avec grande confiance. Explique comment la cross-entropy loss utilisée pendant l'entraînement peut contribuer à ce phénomène d'hallucination.

Choisir la bonne loss function pour un projet

Je construis un modèle de détection de fraude bancaire où seulement 0,1% des transactions sont frauduleuses. Quelle loss function me recommandes-tu et pourquoi ? Compare cross-entropy standard, focal loss et weighted cross-entropy pour mon cas.

Expliquer un concept technique simplement

Explique la loss function à quelqu'un qui n'a aucune formation en mathématiques. Utilise une analogie avec un jeu de fléchettes et montre comment le concept s'applique à l'entraînement de ChatGPT.

Usage pratique

En prompt engineering, comprendre la loss function aide à formuler des instructions plus efficaces. Par exemple, savoir que les LLM sont entraînés avec une cross-entropy sur la prédiction du token suivant explique pourquoi ils sont naturellement meilleurs en complétion qu'en raisonnement abstrait. Cette connaissance permet d'adapter ses prompts pour exploiter les forces du modèle plutôt que de lutter contre ses limitations architecturales.

Concepts liés

Gradient DescentBackpropagationOverfittingFine-tuning

FAQ

Quelle est la différence entre une loss function et une métrique d'évaluation ?
La loss function est utilisée pendant l'entraînement pour guider l'optimisation des poids du modèle — elle doit être dérivable mathématiquement. La métrique d'évaluation (accuracy, F1-score, BLEU) est utilisée après l'entraînement pour juger la performance du modèle en termes compréhensibles par les humains. Parfois elles coïncident, mais souvent la métrique business n'est pas directement optimisable comme loss function.
Pourquoi les LLM comme ChatGPT utilisent-ils la cross-entropy loss ?
Les grands modèles de langage sont entraînés à prédire le token suivant dans une séquence de texte. La cross-entropy loss est idéale pour cette tâche car elle mesure la divergence entre la distribution de probabilité prédite par le modèle sur l'ensemble du vocabulaire et la distribution réelle (le token correct). Elle pénalise particulièrement les prédictions confiantes mais erronées, ce qui pousse le modèle à calibrer correctement ses probabilités.
Comment le RLHF modifie-t-il la loss function des modèles de langage ?
Le RLHF (Reinforcement Learning from Human Feedback) ajoute une couche supplémentaire à l'entraînement. Au lieu de minimiser uniquement la cross-entropy, le modèle est affiné avec une loss function basée sur les préférences humaines. Un modèle de récompense (reward model) est d'abord entraîné sur des comparaisons humaines, puis le LLM est optimisé via PPO pour maximiser cette récompense tout en restant proche du modèle de base. C'est ce processus qui rend les modèles plus utiles et alignés avec les intentions des utilisateurs.

Voir aussi

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.