Objekterkennung von Menschen

Meta SAM 3.1: Objekt-Tracking wird smarter und effizienter

Ein Architektur-Update ermöglicht die gleichzeitige Segmentierung mehrerer Bildelemente in einem einzigen Rechenschritt.

Andreas Becker Nano Banana
Objekterkennung von Menschen

Meta stellt mit dem Segment Anything Model 3.1 ein umfassendes Update für die Bild- und Videosegmentierung vor. Das KI-Modell berechnet ab sofort mehrere Objekte in einem einzigen Durchlauf und steigert die Effizienz beim Tracking enorm.

Quelle: Meta

Gebündelte Rechenleistung ersetzt Einzelprozesse

Die direkte Vorgängerversion verlangte für jedes markierte Objekt im Video einen separaten Rechenweg. Dieses Vorgehen beanspruchte bei komplexen Szenen mit vielen Elementen schnell hohe Kapazitäten. Das aktuelle Update ändert diese Struktur grundlegend. SAM 3.1 nutzt einen vorgeschalteten Multiplexer, kurz Mux. Dieser Schritt bündelt verschiedene Objekte und deren individuelle Eingabemasken zu einer einzigen Datenspur.

Anschließend führt das KI-Modell die Segmentierung in einer einzigen Berechnung durch. Ein Demultiplexer übernimmt im letzten Schritt die exakte Aufschlüsselung.

Er trennt die verarbeiteten Daten auf und ordnet jedem ursprünglichen Objekt die aktualisierte Maske zu. Dieser Ansatz der sogenannten Single Computation spart im direkten Vergleich zur Einzelberechnung immense Rechenleistung.

Quelle: Meta

Fundament aus starken Benchmarks

Die neue Version erbt das leistungsstarke Fundament der dritten Generation, welche zahlreiche etablierte Teststrecken dominiert. Bei der Konzept-Segmentierung über Text-Prompting erreicht die Architektur im SA-Co Gold Benchmark einen Wert von 53,9. Damit deklassiert die Entwicklung Konkurrenten wie Googles Gemini 2.5 Pro, welches lediglich einen Score von 13,0 erzielt.

Auch bei der Erfassung von zählbaren Elementen beweist die zugrundeliegende Basis höchste Präzision. Auf der CountBench-Teststrecke liefert das KI-Modell eine Genauigkeit von 93,8 Prozent. Andere KI-Modelle wie Molmo-72B landen bei 92,4 Prozent, während Qwen-VL-72B lediglich 86,7 Prozent erreicht. Ein spezieller Token entkoppelt dabei die reine Objekterkennung von der räumlichen Lokalisierung.

Quelle: Meta

Fokus auf dynamische Videoverarbeitung

Der technische Sprung von SAM 3 auf SAM 3.1 zielt primär auf die effiziente Verarbeitung von Bewegtbildern ab. Die simultane Berechnung mehrerer Objekte beschleunigt das Tracking über lange Videosequenzen hinweg spürbar. Entwickler verarbeiten dadurch Szenen mit vielen dynamischen Elementen deutlich performanter.

Anwender übergeben dem Modell weiterhin einfache Prompts, um die gewünschten "Dinge" zu markieren. Das optimierte Vision-Foundation-Modell steht der Community als Open Weights zur Verfügung. Die generierten Masken bilden eine direkte Grundlage für professionelle Workflows in der modernen Videobearbeitung.

Anzeige

KI-Wissen ohne Paywall

Unsere Inhalte sind und bleiben kostenlos. Wenn dir unsere News und Tutorials gefallen oder weiterhelfen, freuen wir uns über eine kleine Unterstützung.

Jeder Beitrag zählt – auch das Teilen.