Google Gemini Embedding 2: Neues KI-Modell vereint alle Medien

Das neue multimodale System verarbeitet Text, Bilder, Audio und Video gleichzeitig. Erste Benchmarks zeigen sehr starke Ergebnisse.

Andreas Becker10.03.26 Nano Banana

Kurzfassung Quellen

Google hat das multimodale KI-Modell Gemini Embedding 2 als Public Preview für Entwickler veröffentlicht.
Das System wandelt Texte, Bilder, Videos, Audio-Dateien und PDFs nativ in einen einzigen, gemeinsamen Embedding-Raum um.
In aktuellen Benchmarks übertrifft die Software in den meisten Disziplinen Konkurrenzmodelle von Amazon und Voyage.
Nutzer können damit komplexe Anwendungen für die semantische Suche über verschiedene Medienformate hinweg deutlich leichter aufbauen.

Google hat mit Gemini Embedding 2 ein neues multimodales KI-Modell für Entwickler vorgestellt. Die Software wandelt Text, Bilder, Audio, Video und Dokumente ab sofort nativ in ein einheitliches Format um und vereinfacht so die komplexe Datensuche.

Quelle: Google

Ein gemeinsamer Raum für alle Medien

Bisher erfordern komplexe Suchanwendungen oft den Einsatz mehrerer spezialisierter Modelle, um verschiedene Dateiformate zu verarbeiten. Gemini Embedding 2 löst dieses Problem durch einen rein multimodalen Ansatz. Die Software übersetzt Texte, Bilder, Videos, Sprachaufnahmen und PDF-Dokumente nativ in einen einzigen Embedding-Raum.

Ein Embedding ist die mathematische Repräsentation von Inhalten, durch die ein KI-System Bedeutungen und semantische Zusammenhänge erkennen kann. Dieser Ansatz reduziert den technischen Aufwand für Entwickler beim Aufbau von Systemen für Retrieval-Augmented Generation (RAG) erheblich.

Ein Anwender kann beispielsweise eine Suchanfrage als einfachen Text formulieren. Das System findet daraufhin die passenden Antworten nahtlos in einem hochgeladenen Video oder in einer Audio-Datei. Die Medien müssen dafür nicht mehr zwingend im Vorfeld transkribiert werden.

Direkter Vergleich mit der Konkurrenz

Die Leistungsfähigkeit des neuen Modells zeigt sich in den offiziellen Benchmarks, besonders bei der kombinierten Verarbeitung von Text und Bild. Im TextCaps-Benchmark erreicht Gemini Embedding 2 einen Wert von 89,6 und positioniert sich damit klar vor Amazon Nova 2 Multimodal Embeddings (76,0) sowie Voyage Multimodal 3.5 (79,4). Auch die umgekehrte Aufgabe, also die Zuordnung von Bildern zu Text, entscheidet Google mit 97,4 Punkten für sich.

Quelle: Google

Bei der Analyse von Programmiercode erzielt das Modell 84,0 Punkte und zeigt einen deutlichen Fortschritt gegenüber dem älteren Google-System. Einzig im Bereich der komplexen Text-Dokument-Verarbeitung agiert die Konkurrenz absolut auf Augenhöhe. Hier erreicht Voyage Multimodal 3.5 einen Wert von 65,5, während Gemini knapp dahinter auf 64,9 Punkte kommt.

Ein wesentliches Alleinstellungsmerkmal von Gemini Embedding 2 bleibt die direkte Verarbeitung von gesprochener Sprache. Die anderen getesteten Modelle unterstützen diese native Audio-Funktion ohne eine vorherige Textumwandlung nicht.

Google stellt das neue System ab sofort weltweit als Public Preview zur Verfügung, damit interessierte Entwickler direkt eigene, formatübergreifende KI-Projekte aufbauen und die Datenauswertung optimieren können.