P

Word2vec : Définition et Exemples

Word2vec est un ensemble de modèles d'apprentissage automatique développés par Google qui transforment les mots en vecteurs numériques, capturant ainsi les relations sémantiques entre eux dans un espace mathématique.

Définition complète

Word2vec est une technique de traitement du langage naturel (NLP) introduite en 2013 par Tomas Mikolov et son équipe chez Google. Elle repose sur des réseaux de neurones peu profonds entraînés sur de vastes corpus de texte pour produire des représentations vectorielles des mots, appelées "word embeddings". L'idée fondamentale est que des mots apparaissant dans des contextes similaires possèdent des significations proches, ce qui se traduit par une proximité dans l'espace vectoriel.

Le modèle propose deux architectures principales : CBOW (Continuous Bag of Words), qui prédit un mot à partir de son contexte, et Skip-gram, qui prédit le contexte à partir d'un mot donné. Skip-gram fonctionne particulièrement bien avec les mots rares, tandis que CBOW est plus rapide à entraîner et performant sur les mots fréquents. Ces deux approches permettent d'apprendre des représentations denses et compactes, typiquement de 100 à 300 dimensions.

L'une des propriétés les plus remarquables de Word2vec est sa capacité à capturer des relations analogiques. L'exemple le plus célèbre est l'équation vectorielle : roi - homme + femme ≈ reine. Cette arithmétique des mots montre que le modèle encode non seulement la similarité sémantique, mais aussi des structures relationnelles complexes comme le genre, les capitales de pays ou les conjugaisons verbales.

Bien que Word2vec ait été largement supplanté par des modèles contextuels comme BERT et GPT, il reste une pierre angulaire de la compréhension du NLP moderne. Les principes qu'il a popularisés — représentation distribuée, apprentissage par contexte, espace vectoriel sémantique — sont au cœur de tous les grands modèles de langage actuels, y compris ceux utilisés en prompt engineering.

Étymologie

Le nom "Word2vec" est une contraction de "Word to Vector" (mot vers vecteur), reflétant directement la fonction du modèle : convertir des mots en représentations vectorielles numériques. Le terme a été introduit en 2013 par Tomas Mikolov et ses collègues de Google Research.

Exemples concrets

Analyse de similarité sémantique entre mots

Explique-moi comment Word2vec permet de mesurer la similarité entre les mots 'voiture' et 'automobile', et pourquoi ces deux mots se retrouvent proches dans l'espace vectoriel.

Système de recommandation basé sur le langage

Je construis un moteur de recommandation de films. Décris comment je pourrais adapter l'approche Word2vec pour créer des embeddings de films à partir des descriptions et des avis utilisateurs.

Compréhension des fondements des LLM modernes

En quoi les concepts introduits par Word2vec (embeddings, apprentissage contextuel) ont-ils pavé la voie vers les modèles de langage comme GPT ? Explique la filiation technique.

Usage pratique

En prompt engineering, comprendre Word2vec aide à saisir pourquoi les LLM associent certains mots et concepts entre eux : les embeddings sous-jacents déterminent comment le modèle interprète vos instructions. Cette connaissance permet de reformuler des prompts en utilisant des synonymes ou des termes sémantiquement proches pour obtenir de meilleurs résultats. Elle est aussi essentielle pour quiconque travaille sur des pipelines RAG ou des systèmes de recherche sémantique.

Concepts liés

EmbeddingTraitement du langage naturel (NLP)Réseau de neuronesSimilarité cosinus

FAQ

Quelle est la différence entre Word2vec et les embeddings des modèles modernes comme GPT ?
Word2vec produit un vecteur fixe par mot, identique quel que soit le contexte. Les modèles modernes comme GPT génèrent des embeddings contextuels : le même mot aura une représentation différente selon la phrase dans laquelle il apparaît. Par exemple, le mot 'avocat' aura le même vecteur Word2vec qu'il désigne le fruit ou le juriste, alors qu'un modèle contextuel distinguera les deux sens.
Word2vec est-il encore utilisé aujourd'hui ?
Oui, mais dans des cas d'usage spécifiques. Word2vec reste pertinent pour des applications nécessitant des embeddings légers et rapides à calculer, comme la recherche de mots similaires dans de grands vocabulaires, le pré-traitement de données textuelles ou des systèmes embarqués à ressources limitées. Il est aussi très utilisé à des fins pédagogiques pour comprendre les fondements du NLP.
Faut-il connaître Word2vec pour faire du prompt engineering ?
Ce n'est pas strictement nécessaire, mais c'est fortement recommandé. Comprendre comment les mots sont représentés sous forme de vecteurs aide à intuiter pourquoi un LLM réagit différemment à des formulations proches. Cela permet aussi de mieux appréhender des concepts avancés comme la recherche sémantique, le RAG et le fine-tuning, qui reposent tous sur les principes popularisés par Word2vec.

Voir aussi

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.