Tokenization : Définition et Exemples

La tokenization est le processus par lequel un modèle de langage découpe un texte en unités élémentaires appelées tokens, qui peuvent être des mots, des sous-mots ou des caractères individuels.

Définition complète

La tokenization (ou tokenisation en français) est l'étape fondamentale par laquelle un modèle d'intelligence artificielle transforme du texte brut en une séquence de tokens, c'est-à-dire des unités numériques qu'il peut traiter. Sans cette étape, un LLM serait incapable de comprendre ou de générer du langage humain.

Contrairement à ce que l'on pourrait penser, un token ne correspond pas toujours à un mot entier. Les algorithmes de tokenization modernes comme BPE (Byte Pair Encoding) ou SentencePiece découpent le texte en sous-unités fréquentes. Par exemple, le mot « incroyablement » pourrait être découpé en « incroyable » + « ment ». Les mots courants comme « le » ou « est » forment généralement un seul token, tandis que les mots rares ou techniques sont fragmentés en plusieurs tokens.

Cette mécanique a des conséquences directes sur l'utilisation des LLM. Le nombre de tokens détermine le coût d'un appel API, la longueur maximale d'une conversation (fenêtre de contexte), et même la qualité des réponses. En règle générale, un token représente environ 3 à 4 caractères en français, soit environ 0,75 mot. Le français consomme donc légèrement plus de tokens que l'anglais pour exprimer la même idée.

Comprendre la tokenization permet d'optimiser ses prompts : réduire le nombre de tokens inutiles, anticiper les limites de contexte, et mieux estimer les coûts. C'est une compétence clé pour tout praticien du prompt engineering qui souhaite travailler efficacement avec les API de modèles de langage.

Étymologie

Le terme vient de l'anglais « token » (jeton, unité), issu du vieil anglais « tācen » signifiant signe ou symbole. En linguistique computationnelle, le concept de tokenization existe depuis les années 1960, mais il a pris une importance majeure avec l'avènement des modèles Transformer en 2017, où l'algorithme BPE (Byte Pair Encoding), initialement conçu pour la compression de données, a été adapté au traitement du langage naturel.

Exemples concrets

Estimation du coût d'un appel API

Avant d'envoyer ce document de 5 000 mots à l'API Claude, je dois estimer qu'il représente environ 7 500 tokens en français pour calculer le coût.

Optimisation d'un prompt pour respecter la fenêtre de contexte

Mon contexte fait 180 000 tokens et la limite est de 200 000. Je dois résumer certaines sections pour laisser de la place à la réponse du modèle.

Compréhension des erreurs de découpage

Si le modèle a du mal avec un terme technique comme « désoxyribonucléique », c'est parce que la tokenization le fragmente en de nombreux sous-tokens peu fréquents, ce qui réduit la précision.

Usage pratique

En prompt engineering, comprendre la tokenization permet d'écrire des prompts plus efficaces et économiques. Privilégiez des formulations concises, évitez les répétitions inutiles, et gardez à l'esprit qu'en français un mot consomme en moyenne 1,3 à 1,5 tokens. Utilisez des outils comme le tokenizer d'OpenAI ou l'API d'Anthropic pour compter précisément vos tokens avant un envoi coûteux.

Concepts liés

Fenêtre de contexteEmbeddingBPE (Byte Pair Encoding)LLM (Large Language Model)

FAQ

Combien de tokens représente un mot en français ?

En français, un mot représente en moyenne 1,3 à 1,5 tokens. C'est légèrement plus qu'en anglais (environ 1,1 token par mot) car le français utilise des mots plus longs, des accents et des conjugaisons plus variées que les tokenizers, entraînés principalement sur de l'anglais, découpent davantage.

Quelle est la différence entre un token et un mot ?

Un mot est une unité linguistique délimitée par des espaces, tandis qu'un token est une unité de traitement pour le modèle. Un mot courant comme « bonjour » forme un seul token, mais un mot rare comme « anticonstitutionnellement » sera découpé en plusieurs tokens (par exemple « anti » + « constitu » + « tion » + « nelle » + « ment »). Les signes de ponctuation et les espaces peuvent aussi constituer des tokens à part entière.

Pourquoi la tokenization affecte-t-elle le prix des API ?

Les fournisseurs d'API comme Anthropic ou OpenAI facturent à l'usage en comptant les tokens en entrée (votre prompt) et en sortie (la réponse générée). Plus votre prompt contient de tokens, plus il coûte cher. C'est pourquoi optimiser la longueur de ses prompts, utiliser des instructions concises et éviter le contexte superflu permet de réduire significativement les coûts, surtout à grande échelle.

Voir aussi

Fenêtre de contexte Embedding LLM Prompt Fine-tuning API

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.