Constitutional Ai : Définition et Exemples
Méthode d'alignement de l'IA développée par Anthropic, où un modèle est entraîné à s'auto-corriger en suivant un ensemble de principes écrits (une « constitution ») plutôt qu'en s'appuyant uniquement sur du feedback humain.
Définition complète
Le Constitutional AI (CAI) est une approche d'alignement des modèles de langage introduite par Anthropic en 2022. Son principe fondamental est de doter un modèle d'IA d'un ensemble de règles explicites — appelées « constitution » — qui guident son comportement. Ces principes couvrent des valeurs comme l'honnêteté, l'utilité, la non-nuisance et le respect des droits fondamentaux.
Concrètement, le processus se déroule en deux phases. Dans la première phase (critique et révision), le modèle génère des réponses, puis s'auto-évalue en se référant aux principes constitutionnels. Il identifie les violations potentielles et produit une version révisée de sa réponse. Ce cycle de critique-révision peut être répété plusieurs fois pour affiner la qualité.
Dans la seconde phase, les paires de réponses (originale vs révisée) sont utilisées pour entraîner un modèle de récompense via le RLAIF (Reinforcement Learning from AI Feedback). Ce modèle de récompense remplace en partie le feedback humain direct, ce qui rend le processus plus scalable tout en maintenant un haut niveau d'alignement.
L'avantage majeur du Constitutional AI est la transparence : les règles sont explicites et auditables, contrairement aux préférences implicites capturées par le RLHF classique. Cela permet aussi de débattre publiquement des valeurs encodées dans le système et de les modifier sans réentraîner entièrement le modèle.
Étymologie
Le terme « Constitutional AI » fait directement référence au concept de constitution dans le sens juridique et politique : un document fondateur qui établit les principes et les limites du pouvoir. Tout comme une constitution nationale définit les droits et devoirs des citoyens et du gouvernement, la « constitution » d'un modèle IA définit les principes éthiques et comportementaux qu'il doit respecter.
Exemples concrets
Entraînement d'un assistant IA à refuser les demandes dangereuses tout en restant utile
Critique cette réponse selon le principe suivant : 'L'assistant ne doit jamais aider à créer des armes ou des substances dangereuses'. La réponse contient-elle des violations ? Si oui, réécris-la.
Auto-évaluation d'un modèle sur l'honnêteté de ses réponses
En te basant sur le principe 'L'assistant doit reconnaître les limites de ses connaissances plutôt que d'inventer des informations', évalue si ta réponse précédente est conforme et propose une version améliorée.
Conception d'un système de modération de contenu transparent et auditable
Voici notre constitution de modération : 1) Pas de discours haineux 2) Pas de désinformation médicale 3) Protection des mineurs. Évalue ce contenu selon chaque principe et justifie ta décision.
Usage pratique
En prompt engineering, les principes du Constitutional AI s'appliquent en créant des instructions explicites (system prompts) qui définissent les limites et valeurs de l'assistant. Vous pouvez demander au modèle de s'auto-critiquer selon des règles précises avant de livrer sa réponse finale. Cette approche est particulièrement utile pour construire des applications IA fiables où la transparence des règles de comportement est essentielle.
Concepts liés
FAQ
Quelle est la différence entre Constitutional AI et RLHF ?
Qui a inventé le Constitutional AI ?
Peut-on appliquer les principes du Constitutional AI dans ses propres prompts ?
Voir aussi
Recevez de nouveaux prompts chaque semaine
Rejoignez notre newsletter.