SAM (Segment Anything Model) : Définition et Exemples

SAM (Segment Anything Model) est un modèle de segmentation d'images développé par Meta AI, capable d'identifier et de découper automatiquement n'importe quel objet dans une image à partir d'un simple clic, d'une boîte englobante ou d'un prompt textuel.

Définition complète

SAM, pour Segment Anything Model, est un modèle fondationnel de vision par ordinateur publié par Meta AI Research en avril 2023. Son objectif est de résoudre la tâche de segmentation d'images de manière universelle : plutôt que d'être entraîné pour reconnaître des catégories spécifiques d'objets, SAM peut segmenter n'importe quel élément visuel dans n'importe quelle image, y compris des objets qu'il n'a jamais vus pendant son entraînement.

Le modèle fonctionne grâce à une architecture en trois composants : un encodeur d'image (basé sur un Vision Transformer), un encodeur de prompts qui interprète les indications de l'utilisateur (point, boîte, masque ou texte), et un décodeur de masques léger qui produit la segmentation finale. Cette architecture permet une interaction en temps réel : l'image est encodée une seule fois, puis l'utilisateur peut itérer rapidement en fournissant différents prompts.

SAM a été entraîné sur le dataset SA-1B, l'un des plus grands jeux de données de segmentation jamais créés, contenant plus d'un milliard de masques sur 11 millions d'images. Ce volume de données, combiné à l'approche de pré-entraînement massif, confère à SAM ses capacités de généralisation zero-shot remarquables.

Depuis sa sortie, SAM a été décliné en plusieurs versions (SAM 2 pour la vidéo, HQ-SAM pour une meilleure précision, FastSAM pour la vitesse) et s'est imposé comme une brique fondamentale dans de nombreux pipelines de vision par ordinateur, de l'annotation automatique de données à la retouche photo en passant par la robotique et l'imagerie médicale.

Étymologie

L'acronyme SAM signifie « Segment Anything Model », littéralement « modèle qui segmente n'importe quoi ». Le nom reflète l'ambition du projet : créer un modèle fondationnel pour la segmentation, à l'image de ce que GPT a fait pour le texte. Le terme « Segment Anything » a été choisi par l'équipe de Meta AI (anciennement FAIR) pour souligner la capacité de généralisation universelle du modèle.

Exemples concrets

Annotation automatique d'un dataset d'images pour entraîner un modèle de détection d'objets

Utilise SAM pour segmenter automatiquement tous les objets de cette image, puis exporte les masques au format COCO pour annoter mon dataset de détection de véhicules.

Retouche photo et détourage d'objets dans une application créative

Applique SAM sur cette photo de produit pour isoler l'objet principal de l'arrière-plan. Je veux un masque précis que je pourrai utiliser pour changer le fond.

Analyse d'imagerie médicale pour identifier des structures anatomiques

Utilise SAM avec un point de prompt placé sur la tumeur visible dans cette IRM cérébrale pour générer un masque de segmentation de la lésion.

Usage pratique

En prompt engineering appliqué à la vision, SAM s'utilise comme brique de segmentation dans des pipelines multimodaux : on peut combiner SAM avec un modèle de langage-vision (comme GPT-4V ou Claude) pour d'abord identifier des zones d'intérêt par description textuelle, puis segmenter précisément ces zones. Pour les développeurs, l'API SAM accepte des prompts sous forme de coordonnées (x, y), de boîtes englobantes ou de texte, ce qui permet de l'intégrer facilement dans des workflows automatisés d'annotation, de retouche ou d'analyse d'images.

Concepts liés

Vision Transformer (ViT)Segmentation sémantiqueZero-shot learningModèle fondationnel

FAQ

Quelle est la différence entre SAM et SAM 2 ?

SAM (2023) fonctionne uniquement sur des images fixes, tandis que SAM 2 (2024) étend les capacités de segmentation à la vidéo. SAM 2 peut suivre un objet segmenté à travers les frames d'une vidéo en temps réel, grâce à un mécanisme de mémoire temporelle. SAM 2 est aussi plus rapide et plus précis que SAM sur les images fixes.

SAM peut-il être utilisé gratuitement ?

Oui, SAM est un modèle open source publié par Meta sous licence Apache 2.0. Le code, les poids du modèle et le dataset SA-1B sont disponibles publiquement. Il peut être utilisé librement à des fins commerciales et de recherche, et de nombreuses implémentations sont disponibles via des bibliothèques comme Hugging Face Transformers.

Quelles sont les limites de SAM ?

SAM peut manquer de précision sur les contours très fins (cheveux, fourrure, objets transparents) et ne comprend pas sémantiquement ce qu'il segmente — il découpe des régions visuelles sans les nommer. Pour des tâches nécessitant une classification des objets segmentés, il faut coupler SAM avec un modèle de reconnaissance. De plus, les performances peuvent baisser sur des domaines très spécialisés (imagerie satellite, microscopie) sans fine-tuning.

Voir aussi

Vision Transformer Segmentation sémantique Zero-shot Modèle fondationnel CLIP Détection d'objets

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.