Constitutional Ai : Définition et Exemples

Méthode d'alignement de l'IA développée par Anthropic, où un modèle est entraîné à s'auto-corriger en suivant un ensemble de principes écrits (une « constitution ») plutôt qu'en s'appuyant uniquement sur du feedback humain.

Définition complète

Le Constitutional AI (CAI) est une approche d'alignement des modèles de langage introduite par Anthropic en 2022. Son principe fondamental est de doter un modèle d'IA d'un ensemble de règles explicites — appelées « constitution » — qui guident son comportement. Ces principes couvrent des valeurs comme l'honnêteté, l'utilité, la non-nuisance et le respect des droits fondamentaux.

Concrètement, le processus se déroule en deux phases. Dans la première phase (critique et révision), le modèle génère des réponses, puis s'auto-évalue en se référant aux principes constitutionnels. Il identifie les violations potentielles et produit une version révisée de sa réponse. Ce cycle de critique-révision peut être répété plusieurs fois pour affiner la qualité.

Dans la seconde phase, les paires de réponses (originale vs révisée) sont utilisées pour entraîner un modèle de récompense via le RLAIF (Reinforcement Learning from AI Feedback). Ce modèle de récompense remplace en partie le feedback humain direct, ce qui rend le processus plus scalable tout en maintenant un haut niveau d'alignement.

L'avantage majeur du Constitutional AI est la transparence : les règles sont explicites et auditables, contrairement aux préférences implicites capturées par le RLHF classique. Cela permet aussi de débattre publiquement des valeurs encodées dans le système et de les modifier sans réentraîner entièrement le modèle.

Étymologie

Le terme « Constitutional AI » fait directement référence au concept de constitution dans le sens juridique et politique : un document fondateur qui établit les principes et les limites du pouvoir. Tout comme une constitution nationale définit les droits et devoirs des citoyens et du gouvernement, la « constitution » d'un modèle IA définit les principes éthiques et comportementaux qu'il doit respecter.

Exemples concrets

Entraînement d'un assistant IA à refuser les demandes dangereuses tout en restant utile

Critique cette réponse selon le principe suivant : 'L'assistant ne doit jamais aider à créer des armes ou des substances dangereuses'. La réponse contient-elle des violations ? Si oui, réécris-la.

Auto-évaluation d'un modèle sur l'honnêteté de ses réponses

En te basant sur le principe 'L'assistant doit reconnaître les limites de ses connaissances plutôt que d'inventer des informations', évalue si ta réponse précédente est conforme et propose une version améliorée.

Conception d'un système de modération de contenu transparent et auditable

Voici notre constitution de modération : 1) Pas de discours haineux 2) Pas de désinformation médicale 3) Protection des mineurs. Évalue ce contenu selon chaque principe et justifie ta décision.

Usage pratique

En prompt engineering, les principes du Constitutional AI s'appliquent en créant des instructions explicites (system prompts) qui définissent les limites et valeurs de l'assistant. Vous pouvez demander au modèle de s'auto-critiquer selon des règles précises avant de livrer sa réponse finale. Cette approche est particulièrement utile pour construire des applications IA fiables où la transparence des règles de comportement est essentielle.

Concepts liés

RLHF (Reinforcement Learning from Human Feedback)RLAIF (Reinforcement Learning from AI Feedback)Alignement de l'IARed Teaming

FAQ

Quelle est la différence entre Constitutional AI et RLHF ?

Le RLHF utilise directement les préférences d'évaluateurs humains pour entraîner le modèle, tandis que le Constitutional AI remplace une partie de ce feedback humain par une auto-évaluation du modèle basée sur des principes écrits. Le CAI est plus scalable et plus transparent, car les règles sont explicites et modifiables.

Qui a inventé le Constitutional AI ?

Le Constitutional AI a été développé et publié par Anthropic en décembre 2022, dans un article de recherche intitulé « Constitutional AI: Harmlessness from AI Feedback ». C'est l'une des techniques fondamentales utilisées pour entraîner les modèles Claude.

Peut-on appliquer les principes du Constitutional AI dans ses propres prompts ?

Oui, on peut s'inspirer de cette approche en intégrant des règles explicites dans ses system prompts et en demandant au modèle de vérifier ses réponses contre ces règles. Par exemple, inclure une étape de « critique puis révision » dans une chaîne de prompts permet d'améliorer la qualité et la sécurité des réponses.

Voir aussi

RLHF Alignement de l'IA Red Teaming System Prompt Chain of Thought

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.