Diffusion : Définition et Exemples
Famille de modèles génératifs qui créent des données (images, audio, vidéo) en apprenant à inverser un processus progressif de bruitage, transformant du bruit aléatoire en contenu cohérent étape par étape.
Définition complète
La diffusion est un paradigme de génération par intelligence artificielle inspiré de la thermodynamique. Le principe repose sur deux phases : une phase directe (forward process) où du bruit gaussien est ajouté progressivement à une donnée réelle jusqu'à la rendre méconnaissable, puis une phase inverse (reverse process) où un réseau de neurones apprend à retirer ce bruit pas à pas pour reconstruire une donnée cohérente à partir de bruit pur.
Concrètement, lors de l'entraînement, le modèle observe des milliers d'images à différents niveaux de bruitage et apprend à prédire le bruit ajouté à chaque étape. Une fois entraîné, il peut partir d'une image de bruit aléatoire et la « débruiter » progressivement pour générer une image entièrement nouvelle. Ce processus itératif, qui comporte typiquement entre 20 et 1000 étapes, est ce qui confère aux modèles de diffusion leur qualité remarquable.
Les modèles de diffusion sont au cœur des outils de génération d'images les plus populaires comme Stable Diffusion, DALL·E et Midjourney. Leur force réside dans leur stabilité d'entraînement (contrairement aux GAN), leur capacité à produire des images très détaillées et leur compatibilité naturelle avec le conditionnement textuel. On parle alors de text-to-image : un prompt textuel guide le processus de débruitage pour orienter la génération vers le résultat souhaité.
Au-delà de l'image, le principe de diffusion s'étend désormais à la génération audio (musique, voix), vidéo, modèles 3D et même à la conception moléculaire. Des variantes comme la diffusion latente (Latent Diffusion) opèrent dans un espace compressé pour réduire le coût de calcul, rendant ces modèles accessibles sur du matériel grand public.
Étymologie
Le terme « diffusion » est emprunté à la physique et à la thermodynamique, où il désigne le mouvement spontané de particules d'une zone de forte concentration vers une zone de faible concentration. En IA, l'analogie porte sur le processus de diffusion du bruit dans les données : comme des particules qui se dispersent, l'information structurée se « dissout » progressivement dans le bruit, et le modèle apprend à inverser cette dispersion.
Exemples concrets
Génération d'image à partir d'un prompt textuel (text-to-image)
A serene Japanese garden at sunset, with cherry blossoms falling over a koi pond, soft golden light, photorealistic, 8K, detailed
Modification d'image existante par inpainting (remplacement d'une zone)
Remplace l'arrière-plan de cette photo de portrait par un paysage de montagne enneigée, en conservant l'éclairage naturel et les ombres du sujet
Génération d'image guidée par une image de référence (image-to-image)
Transforme ce croquis au crayon en illustration numérique style aquarelle, en conservant la composition et les proportions originales
Usage pratique
En prompt engineering pour les modèles de diffusion, la précision et la structure du prompt influencent directement la qualité du résultat. Utilisez des descriptions détaillées combinant sujet, style, éclairage, composition et niveau de détail, puis ajustez les paramètres comme le nombre d'étapes de débruitage (steps) et le guidance scale (CFG) pour contrôler la fidélité au prompt. Les prompts négatifs permettent d'exclure les éléments indésirables et d'affiner considérablement la génération.
Concepts liés
FAQ
Quelle est la différence entre un modèle de diffusion et un GAN ?
Pourquoi les modèles de diffusion ont-ils besoin de tant d'étapes pour générer une image ?
Qu'est-ce que la diffusion latente et pourquoi est-elle importante ?
Voir aussi
Recevez de nouveaux prompts chaque semaine
Rejoignez notre newsletter.