Diffusion : Définition et Exemples

Famille de modèles génératifs qui créent des données (images, audio, vidéo) en apprenant à inverser un processus progressif de bruitage, transformant du bruit aléatoire en contenu cohérent étape par étape.

Définition complète

La diffusion est un paradigme de génération par intelligence artificielle inspiré de la thermodynamique. Le principe repose sur deux phases : une phase directe (forward process) où du bruit gaussien est ajouté progressivement à une donnée réelle jusqu'à la rendre méconnaissable, puis une phase inverse (reverse process) où un réseau de neurones apprend à retirer ce bruit pas à pas pour reconstruire une donnée cohérente à partir de bruit pur.

Concrètement, lors de l'entraînement, le modèle observe des milliers d'images à différents niveaux de bruitage et apprend à prédire le bruit ajouté à chaque étape. Une fois entraîné, il peut partir d'une image de bruit aléatoire et la « débruiter » progressivement pour générer une image entièrement nouvelle. Ce processus itératif, qui comporte typiquement entre 20 et 1000 étapes, est ce qui confère aux modèles de diffusion leur qualité remarquable.

Les modèles de diffusion sont au cœur des outils de génération d'images les plus populaires comme Stable Diffusion, DALL·E et Midjourney. Leur force réside dans leur stabilité d'entraînement (contrairement aux GAN), leur capacité à produire des images très détaillées et leur compatibilité naturelle avec le conditionnement textuel. On parle alors de text-to-image : un prompt textuel guide le processus de débruitage pour orienter la génération vers le résultat souhaité.

Au-delà de l'image, le principe de diffusion s'étend désormais à la génération audio (musique, voix), vidéo, modèles 3D et même à la conception moléculaire. Des variantes comme la diffusion latente (Latent Diffusion) opèrent dans un espace compressé pour réduire le coût de calcul, rendant ces modèles accessibles sur du matériel grand public.

Étymologie

Le terme « diffusion » est emprunté à la physique et à la thermodynamique, où il désigne le mouvement spontané de particules d'une zone de forte concentration vers une zone de faible concentration. En IA, l'analogie porte sur le processus de diffusion du bruit dans les données : comme des particules qui se dispersent, l'information structurée se « dissout » progressivement dans le bruit, et le modèle apprend à inverser cette dispersion.

Exemples concrets

Génération d'image à partir d'un prompt textuel (text-to-image)

A serene Japanese garden at sunset, with cherry blossoms falling over a koi pond, soft golden light, photorealistic, 8K, detailed

Modification d'image existante par inpainting (remplacement d'une zone)

Remplace l'arrière-plan de cette photo de portrait par un paysage de montagne enneigée, en conservant l'éclairage naturel et les ombres du sujet

Génération d'image guidée par une image de référence (image-to-image)

Transforme ce croquis au crayon en illustration numérique style aquarelle, en conservant la composition et les proportions originales

Usage pratique

En prompt engineering pour les modèles de diffusion, la précision et la structure du prompt influencent directement la qualité du résultat. Utilisez des descriptions détaillées combinant sujet, style, éclairage, composition et niveau de détail, puis ajustez les paramètres comme le nombre d'étapes de débruitage (steps) et le guidance scale (CFG) pour contrôler la fidélité au prompt. Les prompts négatifs permettent d'exclure les éléments indésirables et d'affiner considérablement la génération.

Concepts liés

Modèle génératifGAN (Generative Adversarial Network)VAE (Variational Autoencoder)Text-to-ImageBruit gaussienClassifier-Free Guidance

FAQ

Quelle est la différence entre un modèle de diffusion et un GAN ?

Les GAN utilisent deux réseaux en compétition (générateur et discriminateur), ce qui peut provoquer des instabilités d'entraînement. Les modèles de diffusion, eux, apprennent un processus de débruitage progressif, ce qui les rend plus stables à entraîner et capables de produire une plus grande diversité de résultats. En contrepartie, la génération par diffusion est plus lente car elle nécessite de multiples étapes itératives.

Pourquoi les modèles de diffusion ont-ils besoin de tant d'étapes pour générer une image ?

Chaque étape retire une petite quantité de bruit, ce qui permet au modèle de prendre des décisions fines et progressives sur la structure, les détails et les textures de l'image. Réduire le nombre d'étapes (via des schedulers optimisés comme DDIM ou DPM++) est possible mais au prix d'une légère perte de qualité. Des avancées récentes comme la distillation de consistance permettent de générer en une seule étape.

Qu'est-ce que la diffusion latente et pourquoi est-elle importante ?

La diffusion latente (Latent Diffusion) effectue le processus de bruitage et débruitage dans un espace compressé (latent space) plutôt que directement sur les pixels. Cela réduit considérablement la mémoire et le temps de calcul nécessaires, rendant possible la génération d'images haute résolution sur des GPU grand public. C'est le principe utilisé par Stable Diffusion.

Voir aussi

Modèle génératif GAN Stable Diffusion Text-to-Image Prompt négatif Guidance Scale Inpainting VAE

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.