SAM (Segment Anything Model) : Définition et Exemples
SAM (Segment Anything Model) est un modèle de segmentation d'images développé par Meta AI, capable d'identifier et de découper automatiquement n'importe quel objet dans une image à partir d'un simple clic, d'une boîte englobante ou d'un prompt textuel.
Définition complète
SAM, pour Segment Anything Model, est un modèle fondationnel de vision par ordinateur publié par Meta AI Research en avril 2023. Son objectif est de résoudre la tâche de segmentation d'images de manière universelle : plutôt que d'être entraîné pour reconnaître des catégories spécifiques d'objets, SAM peut segmenter n'importe quel élément visuel dans n'importe quelle image, y compris des objets qu'il n'a jamais vus pendant son entraînement.
Le modèle fonctionne grâce à une architecture en trois composants : un encodeur d'image (basé sur un Vision Transformer), un encodeur de prompts qui interprète les indications de l'utilisateur (point, boîte, masque ou texte), et un décodeur de masques léger qui produit la segmentation finale. Cette architecture permet une interaction en temps réel : l'image est encodée une seule fois, puis l'utilisateur peut itérer rapidement en fournissant différents prompts.
SAM a été entraîné sur le dataset SA-1B, l'un des plus grands jeux de données de segmentation jamais créés, contenant plus d'un milliard de masques sur 11 millions d'images. Ce volume de données, combiné à l'approche de pré-entraînement massif, confère à SAM ses capacités de généralisation zero-shot remarquables.
Depuis sa sortie, SAM a été décliné en plusieurs versions (SAM 2 pour la vidéo, HQ-SAM pour une meilleure précision, FastSAM pour la vitesse) et s'est imposé comme une brique fondamentale dans de nombreux pipelines de vision par ordinateur, de l'annotation automatique de données à la retouche photo en passant par la robotique et l'imagerie médicale.
Étymologie
L'acronyme SAM signifie « Segment Anything Model », littéralement « modèle qui segmente n'importe quoi ». Le nom reflète l'ambition du projet : créer un modèle fondationnel pour la segmentation, à l'image de ce que GPT a fait pour le texte. Le terme « Segment Anything » a été choisi par l'équipe de Meta AI (anciennement FAIR) pour souligner la capacité de généralisation universelle du modèle.
Exemples concrets
Annotation automatique d'un dataset d'images pour entraîner un modèle de détection d'objets
Utilise SAM pour segmenter automatiquement tous les objets de cette image, puis exporte les masques au format COCO pour annoter mon dataset de détection de véhicules.
Retouche photo et détourage d'objets dans une application créative
Applique SAM sur cette photo de produit pour isoler l'objet principal de l'arrière-plan. Je veux un masque précis que je pourrai utiliser pour changer le fond.
Analyse d'imagerie médicale pour identifier des structures anatomiques
Utilise SAM avec un point de prompt placé sur la tumeur visible dans cette IRM cérébrale pour générer un masque de segmentation de la lésion.
Usage pratique
En prompt engineering appliqué à la vision, SAM s'utilise comme brique de segmentation dans des pipelines multimodaux : on peut combiner SAM avec un modèle de langage-vision (comme GPT-4V ou Claude) pour d'abord identifier des zones d'intérêt par description textuelle, puis segmenter précisément ces zones. Pour les développeurs, l'API SAM accepte des prompts sous forme de coordonnées (x, y), de boîtes englobantes ou de texte, ce qui permet de l'intégrer facilement dans des workflows automatisés d'annotation, de retouche ou d'analyse d'images.
Concepts liés
FAQ
Quelle est la différence entre SAM et SAM 2 ?
SAM peut-il être utilisé gratuitement ?
Quelles sont les limites de SAM ?
Voir aussi
Recevez de nouveaux prompts chaque semaine
Rejoignez notre newsletter.