Embedding : Définition et Exemples

Un embedding est une représentation numérique d'un texte, d'une image ou d'un autre type de donnée sous forme de vecteur de nombres, permettant aux modèles d'IA de mesurer la similarité sémantique entre différents éléments.

Définition complète

Un embedding (ou plongement vectoriel) est une technique fondamentale en intelligence artificielle qui consiste à transformer des données complexes — comme des mots, des phrases, des images ou des documents — en vecteurs numériques de dimension fixe. Ces vecteurs capturent le sens et les relations sémantiques entre les éléments : deux textes proches en signification auront des vecteurs proches dans l'espace vectoriel.

Concrètement, un modèle d'embedding analyse un texte et produit une liste de nombres (par exemple 1536 dimensions pour text-embedding-ada-002 d'OpenAI). Ces nombres ne sont pas interprétables individuellement par un humain, mais leur agencement encode le sens du texte. On peut ensuite calculer la distance ou la similarité cosinus entre deux vecteurs pour déterminer à quel point deux textes sont sémantiquement proches.

Les embeddings sont au cœur de nombreuses applications modernes : la recherche sémantique (trouver des documents pertinents même sans correspondance exacte de mots-clés), les systèmes de recommandation, la classification de textes, et surtout le RAG (Retrieval-Augmented Generation) qui permet d'enrichir les réponses d'un LLM avec des connaissances externes.

En prompt engineering, comprendre les embeddings est essentiel pour concevoir des systèmes qui exploitent efficacement de grandes bases de connaissances. Plutôt que d'envoyer tout le contexte dans un prompt, on utilise les embeddings pour identifier les passages les plus pertinents et ne fournir au modèle que l'information nécessaire.

Étymologie

Le terme "embedding" vient de l'anglais "to embed" (insérer, enchâsser). En mathématiques, un plongement (embedding) désigne une injection d'une structure dans une autre qui préserve certaines propriétés. En IA, le terme a été popularisé par les travaux sur Word2Vec (2013) de Tomas Mikolov chez Google, qui a démontré que les mots pouvaient être représentés dans un espace vectoriel continu où les relations sémantiques sont préservées.

Exemples concrets

Recherche sémantique dans une base de connaissances

Tu es un assistant qui répond en se basant uniquement sur les documents suivants, récupérés par recherche sémantique via embeddings. Documents pertinents :
[{documents récupérés}]

Question de l'utilisateur : {question}

Réponds en citant tes sources.

Classification automatique de tickets de support

Voici un ticket de support client. En utilisant la proximité sémantique avec nos catégories prédéfinies (dont les embeddings sont pré-calculés), ce ticket a été classé dans la catégorie '{catégorie}'. Rédige une réponse appropriée pour cette catégorie.

Détection de doublons dans une FAQ

Voici une nouvelle question soumise par un utilisateur : '{question}'. Les questions existantes les plus proches selon la similarité cosinus de leurs embeddings sont : {liste}. Détermine si cette question est un doublon ou si elle mérite une nouvelle entrée.

Usage pratique

En prompt engineering, les embeddings sont utilisés principalement pour alimenter des systèmes RAG : on vectorise sa base documentaire, puis à chaque requête utilisateur, on récupère les passages les plus pertinents pour les injecter dans le prompt. Cela permet de construire des assistants spécialisés capables de répondre sur des données privées ou récentes sans fine-tuning. Le choix du modèle d'embedding, la taille des chunks de texte et la stratégie de découpage influencent directement la qualité des réponses obtenues.

Concepts liés

RAG (Retrieval-Augmented Generation)Similarité cosinusBase de données vectorielleTokenization

FAQ

Quelle est la différence entre un embedding et un token ?

Un token est un fragment de texte (mot ou sous-mot) découpé par le tokenizer du modèle. Un embedding est la représentation vectorielle numérique de ce token ou d'un ensemble de tokens. Le tokenizer découpe le texte, puis le modèle d'embedding transforme ces tokens en vecteurs qui capturent leur sens sémantique.

Faut-il un modèle d'embedding différent du LLM utilisé pour générer les réponses ?

Oui, ce sont généralement deux modèles distincts. Le modèle d'embedding (comme text-embedding-3-small d'OpenAI ou Voyage AI) est spécialisé dans la création de vecteurs sémantiques. Le LLM (comme Claude ou GPT) est spécialisé dans la génération de texte. Dans un pipeline RAG, le modèle d'embedding sert à la recherche et le LLM à la génération de la réponse.

Combien coûte l'utilisation des embeddings ?

Les embeddings sont nettement moins coûteux que la génération de texte par un LLM. Par exemple, vectoriser un million de tokens coûte typiquement quelques centimes d'euro. Le coût principal réside dans le stockage des vecteurs (base vectorielle comme Pinecone, Weaviate ou pgvector) et le calcul de similarité à grande échelle, mais ces coûts restent modestes pour la plupart des cas d'usage.

Voir aussi

RAG Token Modèle de langage (LLM)Fine-tuning Base de données vectorielle Similarité cosinus

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.