Tokens (IA) : Définition et Exemples
Les tokens sont les unités élémentaires de texte que les modèles d'IA utilisent pour lire et générer du contenu. Un token correspond en moyenne à 3/4 d'un mot en anglais et 1/2 mot en français.
Définition complète
Quand vous envoyez un message à un modèle de langage, votre texte est d'abord découpé en tokens. Un token n'est pas forcément un mot complet : il peut être un mot court, une partie de mot, ou un signe de ponctuation.
Ce découpage (tokenization) est essentiel car les modèles travaillent avec des séquences numériques. Le vocabulaire (50K-100K tokens) est fixé à l'entraînement.
Les tokens impactent le coût et les limites. Chaque modèle a une taille de contexte maximale en tokens (GPT-4 = 128K, Claude = 200K).
En français, comptez 1.5 à 2 tokens par mot, contre 1-1.3 en anglais. Les accents et mots longs consomment plus de tokens.
Étymologie
Le terme vient de l'informatique où il désigne une unité lexicale. Les techniques modernes (BPE, SentencePiece) datent des années 2010-2020.
Exemples concrets
Comprendre le comptage de tokens
Combien de tokens contient ce texte ? Explique le découpage token par token.
Optimiser un prompt pour économiser des tokens
Résume ce document en 500 mots max. Priorité : chiffres, dates, décisions.
Estimer le coût d'un appel API
Usage pratique
Gardez vos prompts concis. Utilisez des instructions structurées. Comptez environ 750 tokens pour 1000 caractères en français.
Concepts liés
FAQ
Comment compter les tokens ?
Pourquoi le français consomme plus de tokens ?
Que se passe-t-il si on dépasse la limite ?
Voir aussi
Recevez de nouveaux prompts chaque semaine
Rejoignez notre newsletter.