Meta TRIBE v2: Neues KI-Modell analysiert Gehirnaktivitäten

Das multimodale System sagt neuronale Reaktionen auf Filme und Sprache präzise voraus.

Andreas Becker26.03.26 Nano Banana

Kurzfassung Quellen

Meta stellt das KI-Modell TRIBE v2 vor, welches Gehirnaktivitäten basierend auf visuellen und auditiven Reizen vorhersagt. Das multimodale System verarbeitet Sprache sowie Videos und übertrifft bisherige Analysemethoden bei der Auswertung neuronaler Reaktionen deutlich.

Twitter Beitrag - Cookies links unten aktivieren.

Today we're introducing TRIBE v2 (Trimodal Brain Encoder), a foundation model trained to predict how the human brain responds to almost any sight or sound.

Building on our Algonauts 2025 award-winning architecture, TRIBE v2 draws on 500+ hours of fMRI recordings from 700+ people… pic.twitter.com/vRoVj8gP4j
— AI at Meta (@AIatMeta) March 26, 2026

Präzise Vorhersagen neuronaler Muster

Entwickler konzipieren das neue Modell gezielt für In-Silico-Experimente in der modernen Neurowissenschaft. TRIBE v2 simuliert komplexe Zusammenhänge zwischen äußeren Reizen und den resultierenden Mustern im menschlichen Gehirn. Das System verarbeitet dafür Bild-, Ton- und Textdaten in einem gemeinsamen Vektorraum.

Die veröffentlichten Benchmark-Ergebnisse belegen einen messbaren Vorsprung gegenüber etablierten Analyseverfahren. Bei der Auswertung von gesprochener Sprache erzielt das KI-Modell einen Vorhersagewert von exakt 0,20. Konventionelle Modelle zur Analyse von Gehirnscans erreichen in diesem spezifischen Bereich lediglich einen Score von 0,12. Einfache lineare Ansätze fallen mit einem Wert von 0,07 noch weiter zurück.

Quelle: Meta

Detaillierte Analyse von Videomaterial

Bei der Verarbeitung von Filmen vergrößert sich der gemessene Leistungsabstand deutlich. Wenn Probanden komplexe Bewegtbilder betrachten, prognostiziert TRIBE v2 die neuronalen Reaktionen mit einem Vorhersagewert von 0,28. Konkurrierende Auswertungsmethoden verharren in dieser Disziplin bei einem Wert von 0,15. Der lineare Rechenansatz bildet auch hier mit 0,11 das Schlusslicht.

Diese Leistungsdaten resultieren aus der speziellen multimodalen Architektur der Software. Programmierer trainieren das Foundation-Modell mit umfangreichen Datensätzen aus unterschiedlichen Sinnesbereichen. Dadurch lernt das System, wie kognitive Prozesse auditive und visuelle Informationen verknüpfen. Wissenschaftler erhalten somit eine messbare Methode zur digitalen Untersuchung neurologischer Abläufe.