Tokens (IA) : Définition et Exemples

Les tokens sont les unités élémentaires de texte que les modèles d'IA utilisent pour lire et générer du contenu. Un token correspond en moyenne à 3/4 d'un mot en anglais et 1/2 mot en français.

Définition complète

Quand vous envoyez un message à un modèle de langage, votre texte est d'abord découpé en tokens. Un token n'est pas forcément un mot complet : il peut être un mot court, une partie de mot, ou un signe de ponctuation.

Ce découpage (tokenization) est essentiel car les modèles travaillent avec des séquences numériques. Le vocabulaire (50K-100K tokens) est fixé à l'entraînement.

Les tokens impactent le coût et les limites. Chaque modèle a une taille de contexte maximale en tokens (GPT-4 = 128K, Claude = 200K).

En français, comptez 1.5 à 2 tokens par mot, contre 1-1.3 en anglais. Les accents et mots longs consomment plus de tokens.

Étymologie

Le terme vient de l'informatique où il désigne une unité lexicale. Les techniques modernes (BPE, SentencePiece) datent des années 2010-2020.

Exemples concrets

Comprendre le comptage de tokens

Combien de tokens contient ce texte ? Explique le découpage token par token.

Optimiser un prompt pour économiser des tokens

Résume ce document en 500 mots max. Priorité : chiffres, dates, décisions.

Estimer le coût d'un appel API

Usage pratique

Gardez vos prompts concis. Utilisez des instructions structurées. Comptez environ 750 tokens pour 1000 caractères en français.

Concepts liés

TokenizationContext windowEmbeddingBPE

FAQ

Comment compter les tokens ?

Utilisez tiktoken (OpenAI) ou le compteur Anthropic. Multipliez le nombre de mots français par 1.5 pour une estimation rapide.

Pourquoi le français consomme plus de tokens ?

Les modèles sont optimisés pour l'anglais. Les accents et la conjugaison française nécessitent souvent plusieurs tokens.

Que se passe-t-il si on dépasse la limite ?

Le modèle tronque les messages anciens ou refuse la requête. Résumez régulièrement les échanges longs.

Voir aussi

Context Window Temperature Embedding

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.