Prompt Compression : Définition et Exemples

Technique consistant à réduire la longueur d'un prompt tout en préservant son sens et son efficacité, afin d'optimiser l'utilisation des tokens et améliorer les performances des modèles de langage.

Définition complète

La prompt compression (ou compression de prompt) désigne l'ensemble des méthodes permettant de raccourcir un prompt envoyé à un modèle de langage sans en altérer significativement la qualité des réponses obtenues. Face aux limites de contexte des LLM et au coût croissant lié au nombre de tokens traités, cette technique est devenue un enjeu majeur pour les praticiens du prompt engineering.

Il existe plusieurs approches de compression. La compression manuelle consiste à reformuler ses instructions de manière plus concise : supprimer les redondances, utiliser des abréviations compréhensibles par le modèle, ou restructurer l'information sous forme de listes ou de tableaux plutôt que de longs paragraphes. La compression algorithmique, quant à elle, fait appel à des outils spécialisés (comme LLMLingua ou AutoCompressors) qui identifient et éliminent automatiquement les tokens les moins informatifs d'un prompt.

L'intérêt de la prompt compression va au-delà de la simple réduction de coûts. Un prompt plus court peut paradoxalement améliorer la qualité des réponses en réduisant le bruit informationnel et en permettant au modèle de se concentrer sur les éléments essentiels. C'est particulièrement vrai pour les tâches de RAG (Retrieval-Augmented Generation) où de longs documents récupérés peuvent diluer les instructions principales.

Cependant, la compression comporte des risques : une compression trop agressive peut supprimer des nuances importantes, des exemples clés ou des contraintes subtiles qui orientaient le modèle. L'art de la prompt compression réside donc dans l'équilibre entre concision et préservation du sens, un compromis qui dépend fortement du modèle utilisé et de la complexité de la tâche.

Étymologie

Le terme combine « prompt » (instruction donnée à un modèle d'IA) et « compression » (du latin compressio, action de serrer ensemble). Le concept a émergé en 2023 avec la démocratisation des LLM à fenêtre de contexte limitée, notamment à travers les travaux de recherche sur LLMLingua (Microsoft Research) qui ont formalisé l'approche algorithmique de la compression de prompts.

Exemples concrets

Compression manuelle d'un prompt verbeux pour une tâche de classification

Avant : « Je voudrais que tu analyses le texte suivant et que tu me dises dans quelle catégorie il se situe parmi les catégories suivantes : positif, négatif ou neutre. Voici le texte à analyser : {texte} »
Après : « Classifie ce texte (positif/négatif/neutre) : {texte} »

Compression de contexte RAG en supprimant les passages non pertinents avant injection dans le prompt

Au lieu d'injecter 10 documents complets récupérés, extraire uniquement les 2-3 passages les plus pertinents et les insérer sous forme condensée : « Contexte :
- [Source 1] : point clé résumé
- [Source 2] : point clé résumé

Question : {question} »

Utilisation de formats structurés pour compresser des instructions complexes

Rôle : rédacteur SEO
Tâche : article 800 mots
Sujet : {sujet}
Contraintes : ton expert | structure H2/H3 | 3 exemples | CTA final
Format : markdown

Usage pratique

Pour appliquer la prompt compression au quotidien, commencez par éliminer toute formule de politesse et redondance dans vos prompts. Privilégiez les formats structurés (listes, tableaux, notation abrégée) plutôt que les phrases longues. Pour les cas d'usage en production avec de grands volumes de contexte, envisagez des outils de compression automatique comme LLMLingua qui peuvent réduire les prompts de 50 à 80 % avec une perte de performance minimale.

Concepts liés

TokenFenêtre de contexteRAG (Retrieval-Augmented Generation)Few-shot prompting

FAQ

La prompt compression dégrade-t-elle la qualité des réponses ?

Pas nécessairement. Une compression modérée (20-50 %) améliore souvent les résultats en réduisant le bruit. Les études montrent qu'au-delà de 60-70 % de compression, la qualité peut commencer à se dégrader selon la complexité de la tâche. L'essentiel est de préserver les instructions clés, les exemples critiques et les contraintes importantes.

Quels outils permettent de compresser automatiquement les prompts ?

Plusieurs outils existent : LLMLingua et LongLLMLingua (Microsoft Research) utilisent un petit modèle de langage pour identifier les tokens supprimables. AutoCompressors entraînent des modèles à résumer le contexte en vecteurs compacts. Des bibliothèques comme Selective Context ou RECOMP proposent également des approches de compression ciblées pour le RAG.

Quelle est la différence entre prompt compression et prompt optimization ?

La prompt compression se concentre spécifiquement sur la réduction de la longueur du prompt (moins de tokens). La prompt optimization est un concept plus large qui vise à améliorer l'efficacité globale du prompt, ce qui peut inclure la compression mais aussi la reformulation, la réorganisation, l'ajout d'exemples pertinents ou le changement de stratégie (chain-of-thought, few-shot, etc.).

Voir aussi

Token Fenêtre de contexte RAG Few-Shot Prompting Chain of Thought Prompt Optimization

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.