Tokenization : Définition et Exemples
La tokenization est le processus par lequel un modèle de langage découpe un texte en unités élémentaires appelées tokens, qui peuvent être des mots, des sous-mots ou des caractères individuels.
Définition complète
La tokenization (ou tokenisation en français) est l'étape fondamentale par laquelle un modèle d'intelligence artificielle transforme du texte brut en une séquence de tokens, c'est-à-dire des unités numériques qu'il peut traiter. Sans cette étape, un LLM serait incapable de comprendre ou de générer du langage humain.
Contrairement à ce que l'on pourrait penser, un token ne correspond pas toujours à un mot entier. Les algorithmes de tokenization modernes comme BPE (Byte Pair Encoding) ou SentencePiece découpent le texte en sous-unités fréquentes. Par exemple, le mot « incroyablement » pourrait être découpé en « incroyable » + « ment ». Les mots courants comme « le » ou « est » forment généralement un seul token, tandis que les mots rares ou techniques sont fragmentés en plusieurs tokens.
Cette mécanique a des conséquences directes sur l'utilisation des LLM. Le nombre de tokens détermine le coût d'un appel API, la longueur maximale d'une conversation (fenêtre de contexte), et même la qualité des réponses. En règle générale, un token représente environ 3 à 4 caractères en français, soit environ 0,75 mot. Le français consomme donc légèrement plus de tokens que l'anglais pour exprimer la même idée.
Comprendre la tokenization permet d'optimiser ses prompts : réduire le nombre de tokens inutiles, anticiper les limites de contexte, et mieux estimer les coûts. C'est une compétence clé pour tout praticien du prompt engineering qui souhaite travailler efficacement avec les API de modèles de langage.
Étymologie
Le terme vient de l'anglais « token » (jeton, unité), issu du vieil anglais « tācen » signifiant signe ou symbole. En linguistique computationnelle, le concept de tokenization existe depuis les années 1960, mais il a pris une importance majeure avec l'avènement des modèles Transformer en 2017, où l'algorithme BPE (Byte Pair Encoding), initialement conçu pour la compression de données, a été adapté au traitement du langage naturel.
Exemples concrets
Estimation du coût d'un appel API
Avant d'envoyer ce document de 5 000 mots à l'API Claude, je dois estimer qu'il représente environ 7 500 tokens en français pour calculer le coût.
Optimisation d'un prompt pour respecter la fenêtre de contexte
Mon contexte fait 180 000 tokens et la limite est de 200 000. Je dois résumer certaines sections pour laisser de la place à la réponse du modèle.
Compréhension des erreurs de découpage
Si le modèle a du mal avec un terme technique comme « désoxyribonucléique », c'est parce que la tokenization le fragmente en de nombreux sous-tokens peu fréquents, ce qui réduit la précision.
Usage pratique
En prompt engineering, comprendre la tokenization permet d'écrire des prompts plus efficaces et économiques. Privilégiez des formulations concises, évitez les répétitions inutiles, et gardez à l'esprit qu'en français un mot consomme en moyenne 1,3 à 1,5 tokens. Utilisez des outils comme le tokenizer d'OpenAI ou l'API d'Anthropic pour compter précisément vos tokens avant un envoi coûteux.
Concepts liés
FAQ
Combien de tokens représente un mot en français ?
Quelle est la différence entre un token et un mot ?
Pourquoi la tokenization affecte-t-elle le prix des API ?
Voir aussi
Recevez de nouveaux prompts chaque semaine
Rejoignez notre newsletter.