Meta SAM 3.1: Objekt-Tracking wird smarter und effizienter

Ein Architektur-Update ermöglicht die gleichzeitige Segmentierung mehrerer Bildelemente in einem einzigen Rechenschritt.

Andreas Becker27.03.26 Nano Banana

Kurzfassung Quellen

Meta veröffentlicht mit SAM 3.1 ein weitreichendes Architektur-Update für die Bild- und Videosegmentierung.
Das neue KI-Modell nutzt Multiplexer, um die Berechnungen für mehrere Objekte in einem einzigen Durchlauf zu bündeln.
Diese Methode der Single Computation spart im Vergleich zur Vorgängerversion SAM 3 immense Rechenleistung beim Video-Tracking.
Die Version basiert auf den starken Leistungswerten von SAM 3, welches Modelle wie Gemini 2.5 Pro in Benchmarks übertrifft.

Meta stellt mit dem Segment Anything Model 3.1 ein umfassendes Update für die Bild- und Videosegmentierung vor. Das KI-Modell berechnet ab sofort mehrere Objekte in einem einzigen Durchlauf und steigert die Effizienz beim Tracking enorm.

Quelle: Meta

Gebündelte Rechenleistung ersetzt Einzelprozesse

Die direkte Vorgängerversion verlangte für jedes markierte Objekt im Video einen separaten Rechenweg. Dieses Vorgehen beanspruchte bei komplexen Szenen mit vielen Elementen schnell hohe Kapazitäten. Das aktuelle Update ändert diese Struktur grundlegend. SAM 3.1 nutzt einen vorgeschalteten Multiplexer, kurz Mux. Dieser Schritt bündelt verschiedene Objekte und deren individuelle Eingabemasken zu einer einzigen Datenspur.

Anschließend führt das KI-Modell die Segmentierung in einer einzigen Berechnung durch. Ein Demultiplexer übernimmt im letzten Schritt die exakte Aufschlüsselung.

Er trennt die verarbeiteten Daten auf und ordnet jedem ursprünglichen Objekt die aktualisierte Maske zu. Dieser Ansatz der sogenannten Single Computation spart im direkten Vergleich zur Einzelberechnung immense Rechenleistung.

Quelle: Meta

Fundament aus starken Benchmarks

Die neue Version erbt das leistungsstarke Fundament der dritten Generation, welche zahlreiche etablierte Teststrecken dominiert. Bei der Konzept-Segmentierung über Text-Prompting erreicht die Architektur im SA-Co Gold Benchmark einen Wert von 53,9. Damit deklassiert die Entwicklung Konkurrenten wie Googles Gemini 2.5 Pro, welches lediglich einen Score von 13,0 erzielt.

Auch bei der Erfassung von zählbaren Elementen beweist die zugrundeliegende Basis höchste Präzision. Auf der CountBench-Teststrecke liefert das KI-Modell eine Genauigkeit von 93,8 Prozent. Andere KI-Modelle wie Molmo-72B landen bei 92,4 Prozent, während Qwen-VL-72B lediglich 86,7 Prozent erreicht. Ein spezieller Token entkoppelt dabei die reine Objekterkennung von der räumlichen Lokalisierung.

Quelle: Meta

Fokus auf dynamische Videoverarbeitung

Der technische Sprung von SAM 3 auf SAM 3.1 zielt primär auf die effiziente Verarbeitung von Bewegtbildern ab. Die simultane Berechnung mehrerer Objekte beschleunigt das Tracking über lange Videosequenzen hinweg spürbar. Entwickler verarbeiten dadurch Szenen mit vielen dynamischen Elementen deutlich performanter.

Anwender übergeben dem Modell weiterhin einfache Prompts, um die gewünschten "Dinge" zu markieren. Das optimierte Vision-Foundation-Modell steht der Community als Open Weights zur Verfügung. Die generierten Masken bilden eine direkte Grundlage für professionelle Workflows in der modernen Videobearbeitung.