Named Entity Recognition : Définition et Exemples
La Named Entity Recognition (NER) est une technique de traitement du langage naturel qui identifie et classifie automatiquement les entités nommées (personnes, lieux, organisations, dates, etc.) dans un texte.
Définition complète
La Named Entity Recognition, ou reconnaissance d'entités nommées en français, est une sous-tâche fondamentale du traitement automatique du langage naturel (NLP). Elle consiste à détecter dans un texte brut les mentions d'entités du monde réel et à les catégoriser dans des classes prédéfinies comme les noms de personnes, les organisations, les lieux géographiques, les dates, les montants financiers ou encore les produits.
Cette technologie repose historiquement sur des approches à base de règles et de dictionnaires, mais les méthodes modernes utilisent principalement des modèles d'apprentissage profond, notamment les architectures Transformer comme BERT ou GPT. Ces modèles sont capables de comprendre le contexte entourant chaque mot pour déterminer s'il s'agit d'une entité et, le cas échéant, de quel type.
Dans le contexte du prompt engineering, la NER est particulièrement utile pour structurer des données non structurées. On peut demander à un LLM d'extraire les entités nommées d'un texte, de les classer par catégorie, ou de les utiliser comme base pour des tâches plus complexes comme la construction de graphes de connaissances ou l'analyse de sentiments ciblée.
La NER trouve des applications concrètes dans de nombreux domaines : veille médiatique (identifier les acteurs mentionnés dans des articles), analyse juridique (extraire les parties prenantes d'un contrat), santé (repérer les noms de médicaments et pathologies), et service client (détecter les produits ou services mentionnés dans les réclamations).
Étymologie
Le terme "Named Entity" a été introduit lors de la sixième conférence MUC (Message Understanding Conference) en 1996, organisée par la DARPA. Le concept est né du besoin d'évaluer les systèmes d'extraction d'information sur des tâches standardisées. "Named" fait référence aux noms propres et expressions référentielles, tandis que "Recognition" désigne le processus automatique de détection et de classification.
Exemples concrets
Extraction d'entités à partir d'un article de presse
Analyse le texte suivant et extrais toutes les entités nommées en les classant par catégorie (Personne, Organisation, Lieu, Date, Montant) : "Emmanuel Macron a rencontré le PDG de TotalEnergies à l'Élysée le 12 mars 2026 pour discuter d'un investissement de 2 milliards d'euros dans les énergies renouvelables." Réponds sous forme de tableau structuré.
Anonymisation de documents sensibles
Identifie toutes les entités nommées de type Personne et Organisation dans ce document, puis remplace-les par des identifiants anonymes (PERSONNE_1, ORGANISATION_1, etc.) tout en conservant la cohérence des références dans le texte.
Construction d'un graphe de connaissances à partir de textes
À partir de ce corpus de textes, extrais toutes les entités nommées et les relations entre elles. Pour chaque relation identifiée, indique : entité source, type de relation, entité cible. Formate le résultat en JSON exploitable pour un graphe de connaissances.
Usage pratique
En prompt engineering, la NER s'utilise principalement pour demander à un LLM d'extraire et structurer des informations précises à partir de textes bruts. On peut affiner les résultats en spécifiant les catégories d'entités souhaitées, le format de sortie attendu (JSON, tableau, liste) et en fournissant des exemples pour guider le modèle via le few-shot prompting. Cette technique est particulièrement puissante pour automatiser l'analyse de documents, la veille informationnelle et la préparation de données.
Concepts liés
FAQ
Quelle est la différence entre la NER et l'extraction de mots-clés ?
Les LLM comme ChatGPT ou Claude sont-ils performants pour la NER ?
Comment améliorer la précision de la NER dans mes prompts ?
Voir aussi
Recevez de nouveaux prompts chaque semaine
Rejoignez notre newsletter.