P

Chunking : Définition et Exemples

Le chunking est une technique qui consiste à découper un texte, une tâche ou des données en segments plus petits et cohérents pour faciliter leur traitement par un modèle d'IA ou améliorer la qualité des réponses.

Définition complète

Le chunking, ou segmentation, est une stratégie fondamentale en prompt engineering et en traitement de l'information par l'IA. Elle consiste à diviser un contenu volumineux ou une tâche complexe en morceaux ("chunks") plus petits, plus digestes et plus faciles à traiter. Cette approche s'inspire directement des sciences cognitives, où le chunking désigne la capacité du cerveau humain à regrouper des informations en unités significatives pour mieux les mémoriser et les manipuler.

Dans le contexte des grands modèles de langage (LLM), le chunking s'applique à deux niveaux distincts. D'une part, au niveau des données : lorsqu'on alimente un système de RAG (Retrieval-Augmented Generation), les documents sources sont découpés en segments de taille optimale pour être indexés et retrouvés efficacement. La taille et le chevauchement de ces segments influencent directement la pertinence des résultats. D'autre part, au niveau des prompts : face à une tâche complexe, on la décompose en sous-tâches séquentielles que le modèle traite une par une.

Le chunking au niveau du prompting permet de contourner plusieurs limitations des LLM : la taille limitée de la fenêtre de contexte, la tendance à perdre en précision sur les tâches longues, et la difficulté à maintenir la cohérence sur des instructions multiples. En traitant chaque segment indépendamment ou séquentiellement, on obtient des réponses plus précises et mieux structurées.

La qualité du chunking dépend de plusieurs facteurs : la granularité choisie (trop fin, on perd le contexte ; trop large, on perd en précision), la cohérence sémantique de chaque segment, et la stratégie de chevauchement entre segments adjacents. Maîtriser le chunking est essentiel pour quiconque travaille avec des LLM sur des tâches non triviales.

Étymologie

Le terme "chunking" vient de l'anglais "chunk" (morceau, bloc). Il a été popularisé en psychologie cognitive par George A. Miller dans son article de 1956 "The Magical Number Seven, Plus or Minus Two", où il décrit la capacité de la mémoire de travail humaine à traiter environ 7 unités d'information simultanément. Le concept a été repris en informatique puis en intelligence artificielle pour désigner toute forme de segmentation structurée de l'information.

Exemples concrets

Découper une tâche d'analyse complexe en étapes séquentielles

Analyse ce contrat en 3 étapes distinctes. Étape 1 : identifie les parties prenantes et leurs obligations. Étape 2 : liste les clauses de résiliation. Étape 3 : évalue les risques juridiques potentiels.

Préparer des documents pour un système RAG

Découpe ce document de 50 pages en segments de 500 tokens avec un chevauchement de 50 tokens. Chaque segment doit commencer par un titre de section ou un début de paragraphe cohérent.

Résumer un long texte en traitant chaque section indépendamment

Je vais te fournir un article en 5 parties. Pour chaque partie, génère un résumé de 3 phrases maximum. Une fois les 5 résumés produits, synthétise-les en un résumé global cohérent.

Usage pratique

En pratique, utilisez le chunking dès qu'une tâche dépasse quelques paragraphes ou implique plusieurs étapes logiques. Décomposez vos prompts complexes en instructions numérotées et traitez chaque segment séparément avant de demander une synthèse. Pour les systèmes RAG, expérimentez avec des tailles de chunks entre 200 et 1000 tokens et ajustez le chevauchement (10-20%) pour préserver le contexte entre segments.

Concepts liés

RAG (Retrieval-Augmented Generation)Chain of ThoughtFenêtre de contexteEmbedding

FAQ

Quelle est la taille idéale d'un chunk pour un système RAG ?
Il n'existe pas de taille universelle. En général, des chunks de 300 à 800 tokens offrent un bon équilibre entre précision et contexte. Les chunks trop petits perdent le contexte sémantique, tandis que les chunks trop grands diluent l'information pertinente. La taille optimale dépend du type de contenu et du cas d'usage : des FAQ courtes nécessitent des chunks plus petits, tandis que des documents techniques complexes bénéficient de segments plus larges.
Quelle est la différence entre le chunking et le Chain of Thought ?
Le chunking consiste à découper les données ou la tâche en segments indépendants, tandis que le Chain of Thought (chaîne de pensée) guide le modèle pour qu'il raisonne étape par étape sur un même problème. Les deux techniques sont complémentaires : on peut chunker une tâche en sous-problèmes, puis appliquer le Chain of Thought à chaque sous-problème pour un raisonnement plus approfondi.
Le chunking est-il utile même avec des modèles à grande fenêtre de contexte ?
Oui, absolument. Même les modèles disposant de fenêtres de contexte de 100 000 tokens ou plus tendent à perdre en attention et en précision sur les passages situés au milieu de longs textes (phénomène dit "lost in the middle"). Le chunking permet de maintenir la qualité des réponses en concentrant l'attention du modèle sur des segments ciblés, indépendamment de la capacité théorique de la fenêtre de contexte.

Voir aussi

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.

Chunking : Définition et Exemples | Prompt Guide