P

Text Classification : Définition et Exemples

La text classification (ou classification de texte) est une technique de traitement automatique du langage naturel (NLP) qui consiste à attribuer une ou plusieurs catégories prédéfinies à un texte donné.

Définition complète

La text classification est l'une des tâches fondamentales du traitement automatique du langage naturel (NLP). Elle consiste à analyser un texte — qu'il s'agisse d'un email, d'un avis client, d'un article ou d'un tweet — et à lui attribuer automatiquement une étiquette parmi un ensemble de catégories prédéfinies. Par exemple, classer un email comme "spam" ou "non-spam", ou déterminer si un commentaire exprime un sentiment positif, négatif ou neutre.

Historiquement, la classification de texte reposait sur des approches statistiques comme les modèles Naive Bayes ou les SVM (machines à vecteurs de support), qui nécessitaient un important travail d'ingénierie des features. Avec l'avènement du deep learning et des modèles de langage comme BERT puis les grands modèles génératifs (LLM), la classification de texte a connu une révolution : il est désormais possible de classer des textes avec une grande précision en utilisant simplement un prompt bien formulé, sans entraîner de modèle spécifique.

Dans le contexte du prompt engineering, la text classification est l'un des cas d'usage les plus courants et les plus accessibles. On peut demander à un LLM de classer un texte en fournissant les catégories souhaitées directement dans le prompt, en utilisant des techniques comme le zero-shot (sans exemple), le few-shot (avec quelques exemples) ou le chain-of-thought (en demandant au modèle d'expliquer son raisonnement avant de trancher).

Les applications pratiques sont vastes : modération de contenu, routage automatique de tickets de support, analyse de sentiment, catégorisation de documents, détection d'intention dans les chatbots, ou encore tri automatique d'emails. La qualité de la classification dépend fortement de la clarté des catégories définies et de la précision des instructions données dans le prompt.

Étymologie

Le terme vient de l'anglais "text" (texte) et "classification" (du latin classificare, "ranger par classes"). Il est apparu dans le domaine de la recherche d'information (information retrieval) dans les années 1960-1970, avant de devenir un pilier du NLP moderne avec l'essor du machine learning dans les années 1990.

Exemples concrets

Analyse de sentiment sur des avis clients

Classe le commentaire suivant comme POSITIF, NÉGATIF ou NEUTRE. Réponds uniquement par l'étiquette.

Commentaire : "Le produit est arrivé rapidement mais la qualité laisse vraiment à désirer, très déçu."

Classification :

Routage automatique de tickets de support technique

Tu es un agent de tri pour un service client. Classe le ticket suivant dans l'une de ces catégories : FACTURATION, TECHNIQUE, LIVRAISON, AUTRE.

Ticket : "Je n'arrive plus à me connecter à mon compte depuis la mise à jour de ce matin."

Catégorie :

Détection de contenu toxique avec classification multi-labels

Analyse le message suivant et indique quelles catégories s'appliquent parmi : HARCÈLEMENT, DISCOURS_HAINEUX, DÉSINFORMATION, AUCUN. Plusieurs catégories peuvent s'appliquer. Réponds au format JSON.

Message : "Ces gens-là ne méritent pas de vivre dans notre pays."

Résultat :

Usage pratique

En prompt engineering, la text classification s'implémente en définissant clairement les catégories possibles dans le prompt et en demandant au modèle de répondre avec l'étiquette appropriée. Pour améliorer la précision, il est recommandé de fournir 2 à 3 exemples (few-shot) et de demander au modèle de justifier brièvement son choix avant de donner sa réponse finale. Structurer la sortie au format JSON facilite l'intégration dans des pipelines automatisés.

Concepts liés

Sentiment AnalysisNamed Entity Recognition (NER)Zero-Shot ClassificationFew-Shot Prompting

FAQ

Quelle est la différence entre classification mono-label et multi-labels ?
En classification mono-label, chaque texte reçoit une seule catégorie (par exemple, spam ou non-spam). En classification multi-labels, un texte peut appartenir à plusieurs catégories simultanément (par exemple, un article peut être à la fois "technologie" et "business"). Dans un prompt, il suffit de préciser si le modèle doit choisir une seule catégorie ou peut en sélectionner plusieurs.
Faut-il entraîner un modèle pour faire de la classification de texte avec un LLM ?
Non, c'est l'un des grands avantages des LLM modernes. Grâce au zero-shot et au few-shot prompting, vous pouvez classifier des textes simplement en décrivant les catégories dans votre prompt, sans aucun entraînement. Pour des cas d'usage à très grande échelle ou nécessitant une précision maximale, un fine-tuning peut cependant être envisagé.
Comment améliorer la précision d'une classification par prompt ?
Plusieurs techniques sont efficaces : définir des catégories mutuellement exclusives et sans ambiguïté, fournir des exemples représentatifs (few-shot), ajouter des descriptions pour chaque catégorie, demander au modèle de raisonner avant de classifier (chain-of-thought), et contraindre le format de sortie pour éviter les réponses hors catégories.

Voir aussi

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.