Speculative Decoding : Définition et Exemples

Technique d'accélération de l'inférence des grands modèles de langage (LLM) qui utilise un petit modèle rapide pour générer des tokens candidats, ensuite vérifiés en parallèle par le modèle principal, réduisant ainsi le temps de génération sans altérer la qualité des réponses.

Définition complète

Le Speculative Decoding (décodage spéculatif) est une méthode d'optimisation conçue pour accélérer la génération de texte par les grands modèles de langage. Le principe repose sur une observation simple : la génération auto-régressive classique, où chaque token est produit un par un, sous-utilise massivement le matériel GPU car chaque étape nécessite un passage complet à travers le modèle. Le décodage spéculatif contourne ce goulot d'étranglement en introduisant un mécanisme de "brouillon puis vérification".

Concrètement, un modèle auxiliaire plus petit et plus rapide (appelé draft model) génère une séquence de tokens candidats de manière spéculative. Ensuite, le modèle principal (le modèle cible, plus grand et plus précis) vérifie tous ces tokens en une seule passe forward, en parallèle. Les tokens acceptés sont conservés, et la génération reprend à partir du premier token rejeté. Cette vérification exploite le fait qu'évaluer plusieurs tokens simultanément coûte presque autant qu'en évaluer un seul sur un GPU moderne.

L'élégance mathématique de cette approche réside dans sa garantie : grâce à un schéma d'acceptation-rejet soigneusement conçu, la distribution de probabilité finale est exactement identique à celle du modèle cible seul. Autrement dit, le Speculative Decoding produit des résultats strictement équivalents en qualité, mais 2 à 3 fois plus rapidement. Le gain dépend du taux d'acceptation, c'est-à-dire de la capacité du petit modèle à prédire correctement ce que le grand modèle aurait généré.

Cette technique est devenue un standard dans les systèmes de production des principaux fournisseurs d'IA. Des variantes existent, comme le self-speculative decoding (où le modèle utilise ses propres couches intermédiaires comme brouillon), le Medusa (qui ajoute des têtes de prédiction parallèles), ou encore le décodage spéculatif par arbre, qui explore plusieurs continuations possibles simultanément pour maximiser le taux d'acceptation.

Étymologie

Le terme combine "speculative" (spéculatif), emprunté à l'informatique où l'exécution spéculative désigne le fait d'effectuer un calcul avant de savoir s'il sera nécessaire (comme dans les processeurs modernes), et "decoding" (décodage), qui désigne le processus de génération de texte token par token dans les modèles de langage. Le concept a été formalisé en 2022-2023 par des équipes de Google DeepMind (Leviathan et al.) et indépendamment par Chen et al., s'inspirant directement de la prédiction de branchement dans les CPU.

Exemples concrets

Déploiement d'un chatbot en production nécessitant une latence faible

Configure le serveur d'inférence vLLM avec speculative decoding en utilisant un draft model Llama 3 8B pour accélérer le modèle principal Llama 3 70B, avec une longueur de spéculation de 5 tokens.

Optimisation d'un pipeline de génération de code avec un LLM

Active le décodage spéculatif pour réduire le temps de réponse de mon assistant de programmation. Le code source a un vocabulaire restreint, donc le taux d'acceptation devrait être élevé.

Comparaison de stratégies d'accélération d'inférence pour un projet d'entreprise

Compare les gains de performance entre la quantification INT8, le speculative decoding et le batching continu pour notre modèle de 70B paramètres déployé sur 2 GPU A100.

Usage pratique

En prompt engineering, le Speculative Decoding n'affecte pas directement la rédaction des prompts puisqu'il opère au niveau de l'infrastructure d'inférence. Cependant, comprendre cette technique permet de mieux dialoguer avec les équipes d'infrastructure pour optimiser la latence des applications IA. Lors du choix d'un fournisseur d'API ou du déploiement d'un modèle open source, vérifier si le speculative decoding est supporté peut diviser le temps de réponse par 2 à 3 sans aucun compromis sur la qualité.

Concepts liés

Inférence LLMGénération auto-régressiveQuantification de modèlesKV Cache

FAQ

Le Speculative Decoding dégrade-t-il la qualité des réponses du modèle ?

Non, c'est l'un de ses principaux atouts. Grâce à un mécanisme mathématique d'acceptation-rejet, la distribution de probabilité des tokens générés est rigoureusement identique à celle du modèle cible utilisé seul. Le résultat est exactement le même, seule la vitesse change.

Quel gain de vitesse peut-on espérer avec le Speculative Decoding ?

Le gain typique se situe entre 2x et 3x en termes de tokens par seconde, mais il dépend fortement du taux d'acceptation (combien de tokens du draft model sont validés par le modèle principal). Pour des tâches prévisibles comme la génération de code ou la traduction, le gain peut être supérieur. Pour des tâches très créatives, il sera plus modeste.

Faut-il un modèle auxiliaire spécifique pour utiliser le Speculative Decoding ?

Le draft model doit idéalement partager le même tokenizer que le modèle cible et être suffisamment petit pour être très rapide. Par exemple, on peut utiliser Llama 3 8B comme draft pour Llama 3 70B. Certaines variantes comme le self-speculative decoding ou Medusa éliminent le besoin d'un modèle séparé en réutilisant des couches internes du modèle principal.

Voir aussi

Inférence Token LLM Latence Quantification Modèle de langage Auto-régressif GPU

Comment utiliser ce prompt

Copie le prompt avec le bouton ci-dessus.
Colle-le dans ChatGPT, Claude ou ton assistant IA préféré.
Remplace les variables entre crochets par tes informations, puis affine le résultat.

À propos de Prompt Guide

Prompt Guide est une bibliothèque gratuite de plus de 2500 prompts prêts à l'emploi pour ChatGPT, Claude et les autres IA, avec des guides pour apprendre à prompter et des outils pour créer et optimiser tes propres prompts.

Bibliothèque de prompts Apprendre à prompter Constructeur de prompt Optimiseur de prompt

Autres définitions

Speech To Text : Définition et Exemples

Le Speech To Text (STT), ou reconnaissance vocale, est une technologie d'intelligence artificielle qui convertit la parole humaine en texte écrit, permettant au

Stability AI : Définition et Exemples

Stability AI est une entreprise spécialisée en intelligence artificielle générative, principalement connue pour avoir développé Stable Diffusion, un modèle open

Step Back Prompting : Définition et Exemples

Technique de prompt engineering qui consiste à poser d'abord une question plus générale ou abstraite avant de traiter la question spécifique, permettant au modè

Stop Sequence : Définition et Exemples

Une stop sequence est une chaîne de caractères prédéfinie qui indique au modèle de langage qu'il doit arrêter de générer du texte dès qu'il la produit.

Streaming : Définition et Exemples

Le streaming est une technique de transmission des réponses d'un modèle d'IA en temps réel, token par token, plutôt que d'attendre la génération complète avant

Structured Output : Définition et Exemples

Un structured output est une réponse générée par un modèle d'IA dans un format de données prédéfini et exploitable par une machine, comme du JSON, XML ou YAML,

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.