P

Named Entity Recognition : Définition et Exemples

La Named Entity Recognition (NER) est une technique de traitement du langage naturel qui identifie et classifie automatiquement les entités nommées (personnes, lieux, organisations, dates, etc.) dans un texte.

Définition complète

La Named Entity Recognition, ou reconnaissance d'entités nommées en français, est une sous-tâche fondamentale du traitement automatique du langage naturel (NLP). Elle consiste à détecter dans un texte brut les mentions d'entités du monde réel et à les catégoriser dans des classes prédéfinies comme les noms de personnes, les organisations, les lieux géographiques, les dates, les montants financiers ou encore les produits.

Cette technologie repose historiquement sur des approches à base de règles et de dictionnaires, mais les méthodes modernes utilisent principalement des modèles d'apprentissage profond, notamment les architectures Transformer comme BERT ou GPT. Ces modèles sont capables de comprendre le contexte entourant chaque mot pour déterminer s'il s'agit d'une entité et, le cas échéant, de quel type.

Dans le contexte du prompt engineering, la NER est particulièrement utile pour structurer des données non structurées. On peut demander à un LLM d'extraire les entités nommées d'un texte, de les classer par catégorie, ou de les utiliser comme base pour des tâches plus complexes comme la construction de graphes de connaissances ou l'analyse de sentiments ciblée.

La NER trouve des applications concrètes dans de nombreux domaines : veille médiatique (identifier les acteurs mentionnés dans des articles), analyse juridique (extraire les parties prenantes d'un contrat), santé (repérer les noms de médicaments et pathologies), et service client (détecter les produits ou services mentionnés dans les réclamations).

Étymologie

Le terme "Named Entity" a été introduit lors de la sixième conférence MUC (Message Understanding Conference) en 1996, organisée par la DARPA. Le concept est né du besoin d'évaluer les systèmes d'extraction d'information sur des tâches standardisées. "Named" fait référence aux noms propres et expressions référentielles, tandis que "Recognition" désigne le processus automatique de détection et de classification.

Exemples concrets

Extraction d'entités à partir d'un article de presse

Analyse le texte suivant et extrais toutes les entités nommées en les classant par catégorie (Personne, Organisation, Lieu, Date, Montant) :

"Emmanuel Macron a rencontré le PDG de TotalEnergies à l'Élysée le 12 mars 2026 pour discuter d'un investissement de 2 milliards d'euros dans les énergies renouvelables."

Réponds sous forme de tableau structuré.

Anonymisation de documents sensibles

Identifie toutes les entités nommées de type Personne et Organisation dans ce document, puis remplace-les par des identifiants anonymes (PERSONNE_1, ORGANISATION_1, etc.) tout en conservant la cohérence des références dans le texte.

Construction d'un graphe de connaissances à partir de textes

À partir de ce corpus de textes, extrais toutes les entités nommées et les relations entre elles. Pour chaque relation identifiée, indique : entité source, type de relation, entité cible. Formate le résultat en JSON exploitable pour un graphe de connaissances.

Usage pratique

En prompt engineering, la NER s'utilise principalement pour demander à un LLM d'extraire et structurer des informations précises à partir de textes bruts. On peut affiner les résultats en spécifiant les catégories d'entités souhaitées, le format de sortie attendu (JSON, tableau, liste) et en fournissant des exemples pour guider le modèle via le few-shot prompting. Cette technique est particulièrement puissante pour automatiser l'analyse de documents, la veille informationnelle et la préparation de données.

Concepts liés

Traitement du Langage Naturel (NLP)TokenizationPart-of-Speech TaggingExtraction d'information

FAQ

Quelle est la différence entre la NER et l'extraction de mots-clés ?
L'extraction de mots-clés identifie les termes les plus importants ou fréquents d'un texte, qu'ils soient des entités ou non. La NER, en revanche, se concentre spécifiquement sur les entités nommées du monde réel (personnes, lieux, organisations) et les classifie dans des catégories sémantiques. Un mot-clé peut être un verbe ou un adjectif, tandis qu'une entité nommée est toujours une référence à un objet ou concept identifiable.
Les LLM comme ChatGPT ou Claude sont-ils performants pour la NER ?
Oui, les grands modèles de langage sont très performants pour la NER, surtout en mode zero-shot ou few-shot. Ils surpassent souvent les modèles NER spécialisés sur des domaines nouveaux car ils bénéficient de leur vaste connaissance générale. Cependant, pour des cas d'usage nécessitant un traitement massif ou des catégories très spécifiques, des modèles dédiés comme spaCy ou des modèles fine-tunés sur BERT peuvent être plus efficaces en termes de coût et de vitesse.
Comment améliorer la précision de la NER dans mes prompts ?
Pour améliorer la précision, définissez explicitement les catégories d'entités que vous recherchez, fournissez 2 à 3 exemples annotés dans votre prompt (few-shot), précisez le format de sortie souhaité et ajoutez des instructions sur les cas ambigus. Par exemple, indiquez si les acronymes doivent être résolus ou si les entités imbriquées (une personne membre d'une organisation) doivent être traitées séparément.

Voir aussi

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.