P

Context Window : Définition et Exemples

La context window (ou fenêtre de contexte) désigne la quantité maximale de texte qu'un modèle de langage peut traiter en une seule fois, englobant à la fois l'entrée de l'utilisateur et la réponse générée.

Définition complète

La context window, ou fenêtre de contexte, est l'un des concepts fondamentaux pour comprendre le fonctionnement des grands modèles de langage (LLM). Elle représente la limite maximale de tokens — mots, sous-mots ou caractères — qu'un modèle peut "voir" et traiter simultanément lors d'une interaction. Cette fenêtre inclut tout : le prompt système, l'historique de conversation, les documents fournis en entrée, ainsi que la réponse en cours de génération.

Concrètement, imaginez la context window comme la mémoire de travail du modèle. Tout ce qui se trouve à l'intérieur de cette fenêtre est accessible au modèle pour formuler sa réponse. Ce qui dépasse cette limite est tout simplement invisible. Par exemple, si vous fournissez un document de 200 000 tokens à un modèle dont la fenêtre est de 128 000 tokens, une partie significative du document sera tronquée ou ignorée.

La taille des context windows a considérablement évolué. Les premiers modèles GPT-3 disposaient d'environ 4 096 tokens, tandis que les modèles récents comme Claude offrent des fenêtres allant jusqu'à 200 000 tokens, voire davantage. Cette progression a transformé les cas d'usage possibles : analyse de documents longs, conversations prolongées, traitement de bases de code entières.

En prompt engineering, la gestion efficace de la context window est une compétence clé. Il ne suffit pas d'avoir une grande fenêtre — il faut savoir l'utiliser intelligemment. Placer les informations les plus importantes en début et en fin de prompt, résumer les échanges précédents, et structurer ses données de manière concise sont autant de techniques qui permettent de maximiser la qualité des réponses tout en respectant les contraintes de taille.

Étymologie

Le terme "context window" est emprunté au vocabulaire de l'informatique et du traitement du signal, où une "fenêtre" désigne une portion délimitée de données observée à un instant donné. Dans le contexte des LLM, il a été adopté pour décrire la portée limitée de l'attention du modèle, directement liée au mécanisme de self-attention des architectures Transformer introduites en 2017.

Exemples concrets

Analyse d'un long document juridique

Voici le contrat complet (45 pages). Identifie toutes les clauses qui mentionnent des pénalités financières et résume-les dans un tableau.

Conversation prolongée avec un assistant IA

Nous avons discuté de 15 sujets différents aujourd'hui. Peux-tu me faire un récapitulatif des décisions prises depuis le début de notre échange ?

Revue de code sur un projet volumineux

Voici les 12 fichiers modifiés dans cette pull request. Analyse chaque fichier pour détecter des bugs potentiels et des incohérences entre les fichiers.

Usage pratique

En prompt engineering, gérez votre context window en plaçant les instructions critiques au début du prompt et les données de référence juste avant la question finale — les modèles accordent plus d'attention aux extrémités. Pour les documents longs dépassant la fenêtre, utilisez des techniques de chunking ou de RAG pour extraire uniquement les passages pertinents. Surveillez votre consommation de tokens avec des outils de comptage pour éviter les troncatures silencieuses qui dégradent la qualité des réponses.

Concepts liés

TokenPrompt EngineeringRAG (Retrieval-Augmented Generation)Chunking

FAQ

Quelle est la différence entre context window et mémoire du modèle ?
La context window est la mémoire de travail temporaire du modèle, active uniquement pendant une interaction. Elle ne persiste pas entre les conversations. La "mémoire" au sens large inclut aussi les connaissances acquises pendant l'entraînement, qui sont permanentes mais figées. Certains systèmes ajoutent une couche de mémoire persistante par-dessus (historique de conversations, bases vectorielles), mais cela reste distinct de la context window native.
Que se passe-t-il quand on dépasse la taille de la context window ?
Lorsque le contenu dépasse la context window, le comportement varie selon le système. Certains modèles tronquent silencieusement les tokens les plus anciens, d'autres renvoient une erreur. Dans tous les cas, les informations au-delà de la limite sont perdues pour le modèle, ce qui peut entraîner des réponses incomplètes, incohérentes ou qui ignorent des instructions importantes. C'est pourquoi il est crucial de structurer ses prompts pour que les éléments essentiels restent dans la fenêtre.
Une context window plus grande signifie-t-elle toujours de meilleures réponses ?
Pas nécessairement. Des recherches ont montré un phénomène appelé "lost in the middle" : les modèles ont tendance à moins bien exploiter les informations situées au milieu de très longs contextes. De plus, une fenêtre plus grande augmente le coût en tokens et le temps de traitement. L'approche optimale consiste souvent à fournir uniquement les informations pertinentes, bien structurées, plutôt que de remplir la fenêtre au maximum.

Voir aussi

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.