Inception Labs: Neues Reasoning-Modell bricht Geschwindigkeitsrekord

Mercury 2 nutzt Diffusion statt Transformer und verarbeitet 1.009 Tokens pro Sekunde. Die KI zielt auf Echtzeit-Anwendungen ab.

Andreas Becker24.02.26 Nano Banana

Kurzfassung Quellen

Inception Labs stellt mit Mercury 2 ein neues Reasoning-Modell vor, das auf Diffusion statt auf der Transformer-Architektur basiert.
Die KI verfeinert mehrere Textbausteine parallel und erreicht dadurch eine extrem hohe Geschwindigkeit von 1.009 Tokens pro Sekunde.
Mit einer Latenz von nur 1,7 Sekunden richtet sich das Modell an latenzkritische Unternehmensanwendungen wie Sprachassistenten.
Gleichzeitig unterbietet das Start-up die Preise etablierter Konkurrenten wie Google oder Anthropic deutlich.

Das US-Start-up Inception Labs bringt mit Mercury 2 ein neues Reasoning-Modell auf den Markt, das auf Diffusion statt auf der klassischen Transformer-Architektur basiert. Die künstliche Intelligenz erreicht dadurch eine Verarbeitungsgeschwindigkeit von 1.009 Tokens pro Sekunde und positioniert sich damit als die schnellste Alternative für latenzkritische Anwendungen.

Das kurze Video habe ich gerade aufgenommen und es wird in Echtzeit abgespielt.

Textbausteine parallel verarbeiten

Bisherige Sprachmodelle generieren Antworten linear, also strikt Wort für Wort. Mercury 2 verfeinert stattdessen mehrere Textbausteine gleichzeitig. Der Vorgang gleicht einem menschlichen Lektor, der einen kompletten Entwurf auf einmal überarbeitet, anstatt nur einzelne Wörter isoliert zu betrachten.

Durch diesen technischen Aufbau sinkt die Reaktionszeit erheblich. Auf aktuellen Nvidia-Blackwell-Grafikprozessoren erreicht das System eine Ende-zu-Ende-Latenz von lediglich 1,7 Sekunden. Zum Vergleich benötigt das Modell Gemini 3 Flash für ähnliche Aufgaben rund 14,4 Sekunden. Claude 4.5 Haiku liegt mit aktivierten Reasoning-Funktionen sogar bei 23,4 Sekunden.

Entwickler können das System über eine OpenAI-kompatible API in eigene Anwendungen einbinden. Das Modell bringt dabei folgende Kerndaten mit:

Ein Kontextfenster von 128.000 Tokens
Unterstützung für strukturierte JSON-Ausgaben
Die Fähigkeit, externe Software direkt anzusteuern

Quelle: inceptionlabs

Fokus auf Echtzeit-Anwendungen

Inception Labs richtet sich mit der neuen KI primär an Unternehmen, die stark verzögerungsempfindliche Produkte wie Sprachassistenten oder Live-Übersetzer betreiben. Für solche Einsatzgebiete spielen neben der reinen Geschwindigkeit auch die anfallenden Betriebskosten eine entscheidende Rolle.

Der Anbieter verlangt 0,25 US-Dollar pro einer Million Eingabe-Tokens und 0,75 US-Dollar für die gleiche Menge an Ausgabe-Tokens. Damit unterbietet das Start-up die etablierte Konkurrenz deutlich, da die Nutzung etwa viermal günstiger ausfällt als bei vergleichbaren Modellen von Anthropic oder Google.

Inception Labs: Neues Reasoning-Modell bricht Geschwindigkeitsrekord

Textbausteine parallel verarbeiten

Quelle: inceptionlabs

Fokus auf Echtzeit-Anwendungen

Anzeige

FLUX Erase schlägt Konkurrenz bei der Bildbearbeitung

Qwen3.7-Max schlägt Konkurrenz bei Agenten-Benchmarks

SpaceX plant den größten Börsengang der Geschichte

Qwen übersetzt simultan mit deiner Originalstimme

Gemini folgt Claude und rechnet nach Rechenleistung ab

Das Playbook für KI-Startups von Anthropic

ChatGPT Images 2.0 Tutorial: Prompts und Tipps 2026

Musik mit ElevenMusic-KI erstellen: Das große Praxis-Tutorial

ElevenLabs Test 2026: Voice, Agenten, Kosten und Tipps

ElevenLabs Agents Test: Automatisierter Kundensupport war nie einfacher

Seedance 2.0 Test 2026: Verfügbarkeit, Benchmarks, Tipps

Inception Labs: Neues Reasoning-Modell bricht Geschwindigkeitsrekord

Textbausteine parallel verarbeiten

Quelle: inceptionlabs

Fokus auf Echtzeit-Anwendungen

Anzeige

KI-Wissen mit menschlicher Note