P

Mixture Of Experts : Définition et Exemples

Architecture de réseau de neurones qui divise un modèle en plusieurs sous-réseaux spécialisés (les « experts ») et utilise un mécanisme de routage pour activer seulement une partie d'entre eux à chaque requête, permettant de créer des modèles massifs tout en maîtrisant le coût de calcul.

Définition complète

Le Mixture of Experts (MoE) est une architecture d'apprentissage automatique dans laquelle un modèle est composé de multiples sous-réseaux indépendants, appelés « experts », chacun se spécialisant dans le traitement de certains types de données ou de tâches. Un composant clé, le réseau de routage (ou « gating network »), décide dynamiquement quels experts activer pour chaque entrée. Ainsi, seule une fraction du modèle total est sollicitée à chaque inférence.

L'intérêt principal de cette approche est de découpler la taille totale du modèle (le nombre de paramètres) du coût de calcul effectif. Un modèle MoE peut contenir des centaines de milliards de paramètres, mais n'en activer qu'une dizaine de milliards par requête. Cela permet d'obtenir les performances d'un très grand modèle dense tout en conservant une vitesse d'inférence comparable à celle d'un modèle beaucoup plus petit.

Dans le contexte des grands modèles de langage (LLM), l'architecture MoE a été popularisée par des modèles comme Mixtral de Mistral AI ou GPT-4 d'OpenAI (dont l'architecture présumée repose sur un MoE). Concrètement, chaque couche transformer contient plusieurs experts feed-forward, et le routeur sélectionne typiquement les 2 experts les plus pertinents parmi 8 ou 16 disponibles pour traiter chaque token.

Pour l'utilisateur final, le MoE a un impact direct : il rend possible des modèles plus performants, plus rapides et moins coûteux à exécuter. C'est l'une des innovations architecturales qui explique pourquoi les modèles récents sont à la fois plus puissants et plus accessibles que leurs prédécesseurs.

Étymologie

Le concept de Mixture of Experts a été introduit en 1991 par Robert Jacobs, Michael Jordan, Steven Nowlan et Geoffrey Hinton. Le terme s'inspire de l'idée d'un comité d'experts humains où chaque spécialiste intervient sur les questions relevant de son domaine de compétence. Le mot « mixture » fait référence au modèle probabiliste sous-jacent (un mélange de distributions), tandis qu'« experts » désigne les sous-réseaux spécialisés.

Exemples concrets

Choisir un modèle adapté à ses contraintes de déploiement

Je dois déployer un LLM sur un serveur avec un seul GPU. Quels sont les avantages d'un modèle Mixture of Experts comme Mixtral 8x7B par rapport à un modèle dense de taille équivalente en termes de performances ?

Comprendre les performances d'un modèle

Explique-moi pourquoi Mixtral 8x7B, qui a 46 milliards de paramètres au total, est aussi rapide qu'un modèle de 13 milliards de paramètres à l'inférence.

Évaluer l'architecture d'un modèle pour un cas d'usage spécialisé

Pour une application multilingue (français, anglais, espagnol), est-ce qu'un modèle MoE serait plus adapté qu'un modèle dense, sachant que certains experts pourraient se spécialiser par langue ?

Usage pratique

En prompt engineering, comprendre l'architecture MoE aide à choisir le bon modèle selon ses contraintes de coût et de performance. Les modèles MoE excellent sur les tâches variées car leurs experts se spécialisent naturellement, ce qui en fait d'excellents candidats pour des applications généralistes. Lors du choix d'un modèle, il est utile de comparer le nombre de paramètres actifs (et non totaux) pour estimer la vitesse réelle d'inférence.

Concepts liés

TransformerSparse ModelGating NetworkFine-tuningInférenceScaling Laws

FAQ

Quelle est la différence entre un modèle dense et un modèle Mixture of Experts ?
Un modèle dense active tous ses paramètres pour chaque requête, tandis qu'un modèle MoE n'active qu'un sous-ensemble d'experts à chaque inférence. Par exemple, Mixtral 8x7B possède 46 milliards de paramètres au total mais n'en utilise qu'environ 13 milliards par token, ce qui le rend aussi rapide qu'un modèle dense de 13B tout en offrant des performances proches d'un modèle de 70B.
Les modèles MoE sont-ils plus difficiles à utiliser en prompt engineering ?
Non, du point de vue de l'utilisateur, un modèle MoE s'utilise exactement comme un modèle dense. Le routage entre experts est entièrement automatique et transparent. Les mêmes techniques de prompt engineering (few-shot, chain-of-thought, instructions structurées) s'appliquent de manière identique.
Quels sont les inconvénients de l'architecture Mixture of Experts ?
Les principaux inconvénients sont une empreinte mémoire plus importante (tous les experts doivent être chargés en mémoire même si seuls quelques-uns sont actifs), une complexité accrue lors du fine-tuning, et un risque de déséquilibre du routage où certains experts seraient sous-utilisés. Ces contraintes concernent surtout les développeurs de modèles plutôt que les utilisateurs finaux.

Voir aussi

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.