Mixture Of Experts : Définition et Exemples
Architecture de réseau de neurones qui divise un modèle en plusieurs sous-réseaux spécialisés (les « experts ») et utilise un mécanisme de routage pour activer seulement une partie d'entre eux à chaque requête, permettant de créer des modèles massifs tout en maîtrisant le coût de calcul.
Définition complète
Le Mixture of Experts (MoE) est une architecture d'apprentissage automatique dans laquelle un modèle est composé de multiples sous-réseaux indépendants, appelés « experts », chacun se spécialisant dans le traitement de certains types de données ou de tâches. Un composant clé, le réseau de routage (ou « gating network »), décide dynamiquement quels experts activer pour chaque entrée. Ainsi, seule une fraction du modèle total est sollicitée à chaque inférence.
L'intérêt principal de cette approche est de découpler la taille totale du modèle (le nombre de paramètres) du coût de calcul effectif. Un modèle MoE peut contenir des centaines de milliards de paramètres, mais n'en activer qu'une dizaine de milliards par requête. Cela permet d'obtenir les performances d'un très grand modèle dense tout en conservant une vitesse d'inférence comparable à celle d'un modèle beaucoup plus petit.
Dans le contexte des grands modèles de langage (LLM), l'architecture MoE a été popularisée par des modèles comme Mixtral de Mistral AI ou GPT-4 d'OpenAI (dont l'architecture présumée repose sur un MoE). Concrètement, chaque couche transformer contient plusieurs experts feed-forward, et le routeur sélectionne typiquement les 2 experts les plus pertinents parmi 8 ou 16 disponibles pour traiter chaque token.
Pour l'utilisateur final, le MoE a un impact direct : il rend possible des modèles plus performants, plus rapides et moins coûteux à exécuter. C'est l'une des innovations architecturales qui explique pourquoi les modèles récents sont à la fois plus puissants et plus accessibles que leurs prédécesseurs.
Étymologie
Le concept de Mixture of Experts a été introduit en 1991 par Robert Jacobs, Michael Jordan, Steven Nowlan et Geoffrey Hinton. Le terme s'inspire de l'idée d'un comité d'experts humains où chaque spécialiste intervient sur les questions relevant de son domaine de compétence. Le mot « mixture » fait référence au modèle probabiliste sous-jacent (un mélange de distributions), tandis qu'« experts » désigne les sous-réseaux spécialisés.
Exemples concrets
Choisir un modèle adapté à ses contraintes de déploiement
Je dois déployer un LLM sur un serveur avec un seul GPU. Quels sont les avantages d'un modèle Mixture of Experts comme Mixtral 8x7B par rapport à un modèle dense de taille équivalente en termes de performances ?
Comprendre les performances d'un modèle
Explique-moi pourquoi Mixtral 8x7B, qui a 46 milliards de paramètres au total, est aussi rapide qu'un modèle de 13 milliards de paramètres à l'inférence.
Évaluer l'architecture d'un modèle pour un cas d'usage spécialisé
Pour une application multilingue (français, anglais, espagnol), est-ce qu'un modèle MoE serait plus adapté qu'un modèle dense, sachant que certains experts pourraient se spécialiser par langue ?
Usage pratique
En prompt engineering, comprendre l'architecture MoE aide à choisir le bon modèle selon ses contraintes de coût et de performance. Les modèles MoE excellent sur les tâches variées car leurs experts se spécialisent naturellement, ce qui en fait d'excellents candidats pour des applications généralistes. Lors du choix d'un modèle, il est utile de comparer le nombre de paramètres actifs (et non totaux) pour estimer la vitesse réelle d'inférence.
Concepts liés
FAQ
Quelle est la différence entre un modèle dense et un modèle Mixture of Experts ?
Les modèles MoE sont-ils plus difficiles à utiliser en prompt engineering ?
Quels sont les inconvénients de l'architecture Mixture of Experts ?
Voir aussi
Recevez de nouveaux prompts chaque semaine
Rejoignez notre newsletter.