Text Classification : Définition et Exemples

La text classification (ou classification de texte) est une technique de traitement automatique du langage naturel (NLP) qui consiste à attribuer une ou plusieurs catégories prédéfinies à un texte donné.

Définition complète

La text classification est l'une des tâches fondamentales du traitement automatique du langage naturel (NLP). Elle consiste à analyser un texte — qu'il s'agisse d'un email, d'un avis client, d'un article ou d'un tweet — et à lui attribuer automatiquement une étiquette parmi un ensemble de catégories prédéfinies. Par exemple, classer un email comme "spam" ou "non-spam", ou déterminer si un commentaire exprime un sentiment positif, négatif ou neutre.

Historiquement, la classification de texte reposait sur des approches statistiques comme les modèles Naive Bayes ou les SVM (machines à vecteurs de support), qui nécessitaient un important travail d'ingénierie des features. Avec l'avènement du deep learning et des modèles de langage comme BERT puis les grands modèles génératifs (LLM), la classification de texte a connu une révolution : il est désormais possible de classer des textes avec une grande précision en utilisant simplement un prompt bien formulé, sans entraîner de modèle spécifique.

Dans le contexte du prompt engineering, la text classification est l'un des cas d'usage les plus courants et les plus accessibles. On peut demander à un LLM de classer un texte en fournissant les catégories souhaitées directement dans le prompt, en utilisant des techniques comme le zero-shot (sans exemple), le few-shot (avec quelques exemples) ou le chain-of-thought (en demandant au modèle d'expliquer son raisonnement avant de trancher).

Les applications pratiques sont vastes : modération de contenu, routage automatique de tickets de support, analyse de sentiment, catégorisation de documents, détection d'intention dans les chatbots, ou encore tri automatique d'emails. La qualité de la classification dépend fortement de la clarté des catégories définies et de la précision des instructions données dans le prompt.

Étymologie

Le terme vient de l'anglais "text" (texte) et "classification" (du latin classificare, "ranger par classes"). Il est apparu dans le domaine de la recherche d'information (information retrieval) dans les années 1960-1970, avant de devenir un pilier du NLP moderne avec l'essor du machine learning dans les années 1990.

Exemples concrets

Analyse de sentiment sur des avis clients

Classe le commentaire suivant comme POSITIF, NÉGATIF ou NEUTRE. Réponds uniquement par l'étiquette.

Commentaire : "Le produit est arrivé rapidement mais la qualité laisse vraiment à désirer, très déçu."

Classification :

Routage automatique de tickets de support technique

Tu es un agent de tri pour un service client. Classe le ticket suivant dans l'une de ces catégories : FACTURATION, TECHNIQUE, LIVRAISON, AUTRE.

Ticket : "Je n'arrive plus à me connecter à mon compte depuis la mise à jour de ce matin."

Catégorie :

Détection de contenu toxique avec classification multi-labels

Analyse le message suivant et indique quelles catégories s'appliquent parmi : HARCÈLEMENT, DISCOURS_HAINEUX, DÉSINFORMATION, AUCUN. Plusieurs catégories peuvent s'appliquer. Réponds au format JSON.

Message : "Ces gens-là ne méritent pas de vivre dans notre pays."

Résultat :

Usage pratique

En prompt engineering, la text classification s'implémente en définissant clairement les catégories possibles dans le prompt et en demandant au modèle de répondre avec l'étiquette appropriée. Pour améliorer la précision, il est recommandé de fournir 2 à 3 exemples (few-shot) et de demander au modèle de justifier brièvement son choix avant de donner sa réponse finale. Structurer la sortie au format JSON facilite l'intégration dans des pipelines automatisés.

Concepts liés

Sentiment AnalysisNamed Entity Recognition (NER)Zero-Shot ClassificationFew-Shot Prompting

FAQ

Quelle est la différence entre classification mono-label et multi-labels ?

En classification mono-label, chaque texte reçoit une seule catégorie (par exemple, spam ou non-spam). En classification multi-labels, un texte peut appartenir à plusieurs catégories simultanément (par exemple, un article peut être à la fois "technologie" et "business"). Dans un prompt, il suffit de préciser si le modèle doit choisir une seule catégorie ou peut en sélectionner plusieurs.

Faut-il entraîner un modèle pour faire de la classification de texte avec un LLM ?

Non, c'est l'un des grands avantages des LLM modernes. Grâce au zero-shot et au few-shot prompting, vous pouvez classifier des textes simplement en décrivant les catégories dans votre prompt, sans aucun entraînement. Pour des cas d'usage à très grande échelle ou nécessitant une précision maximale, un fine-tuning peut cependant être envisagé.

Comment améliorer la précision d'une classification par prompt ?

Plusieurs techniques sont efficaces : définir des catégories mutuellement exclusives et sans ambiguïté, fournir des exemples représentatifs (few-shot), ajouter des descriptions pour chaque catégorie, demander au modèle de raisonner avant de classifier (chain-of-thought), et contraindre le format de sortie pour éviter les réponses hors catégories.

Voir aussi

Sentiment Analysis Named Entity Recognition Zero-Shot Prompting Few-Shot Prompting Natural Language Processing Fine-Tuning Chain of Thought Token

Comment utiliser ce prompt

Copie le prompt avec le bouton ci-dessus.
Colle-le dans ChatGPT, Claude ou ton assistant IA préféré.
Remplace les variables entre crochets par tes informations, puis affine le résultat.

À propos de Prompt Guide

Prompt Guide est une bibliothèque gratuite de plus de 2500 prompts prêts à l'emploi pour ChatGPT, Claude et les autres IA, avec des guides pour apprendre à prompter et des outils pour créer et optimiser tes propres prompts.

Bibliothèque de prompts Apprendre à prompter Constructeur de prompt Optimiseur de prompt

Autres définitions

Text Summarization : Définition et Exemples

La text summarization (résumé automatique de texte) est une technique d'IA qui consiste à condenser un document long en une version plus courte tout en préserva

Text To Image : Définition et Exemples

Le Text To Image (texte vers image) désigne une technologie d'intelligence artificielle capable de générer des images à partir d'une description textuelle, appe

Text To Speech : Définition et Exemples

Le Text To Speech (TTS) est une technologie de synthèse vocale qui convertit un texte écrit en parole audible, permettant à une machine de "lire" du contenu à v

Text To Video : Définition et Exemples

Le Text To Video est une technologie d'intelligence artificielle qui génère automatiquement des séquences vidéo à partir d'une description textuelle, transforma

Thread Of Thought : Définition et Exemples

Technique de prompting qui demande au modèle de dérouler un fil de raisonnement continu en identifiant et en connectant les informations pertinentes d'un contex

Tiktoken : Définition et Exemples

Tiktoken est la bibliothèque open source de tokenisation développée par OpenAI, utilisée pour découper du texte en tokens avant de l'envoyer à des modèles de la

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.