Microsoft gibt KI endlich ein echtes Langzeitgedächtnis

Das neue System Memora merkt sich Projektdetails über Monate. Dabei spart es auch noch enorm viel Rechenleistung.

Andreas Becker30.06.26 GPT-Images-2.0

Kurzfassung Quellen

Microsoft Research stellt mit Memora ein neues Langzeitgedächtnis für KI-Agenten vor.
Das System entkoppelt ausführliche Speicherinhalte von kurzen Suchindizes.
Dadurch merken sich Sprachmodelle auch nach Monaten feine Projektdetails, ohne den Kontext zu verlieren.
In aktuellen Tests übertrifft Memora etablierte Speichermethoden und reduziert den Token-Verbrauch um bis zu 98 Prozent.

Microsoft Research hat am Montag ein Speichersystem veröffentlicht, das KI-Assistenten über Monate hinweg komplexe Projektdetails behalten lässt. Die Memora genannte Architektur trennt ausführliche Inhalte von kurzen Suchindizes und senkt den Token-Verbrauch in langen Konversationen um bis zu 98 Prozent.

Das Ende des flüchtigen Kontexts

Aktuelle Sprachmodelle starten jede neue Sitzung bei null. Sollen sie über längere Zeiträume als Assistenten dienen, müssen sie ihre gesamte Historie bei jeder Anfrage neu einlesen oder auf fehleranfällige Hilfssysteme zurückgreifen.

Bisherige Speichermethoden erzwingen dabei einen Kompromiss. Ansätze wie Mem0 oder Retrieval-Augmented Generation (RAG) sichern rohe Textfragmente, wodurch der inhaltliche Zusammenhang oft abreißt. Andere Verfahren komprimieren Dialoge zu groben Zusammenfassungen. Dabei gehen spezifische Details, Randbedingungen und Zahlenwerte verloren.

Zwei Schichten für die Informationssuche

Memora entkoppelt das Speichern vom Suchen. Jeder Eintrag in diesem System besteht aus zwei Bausteinen. Die »Primary Abstraction« fasst das Kernthema in sechs bis acht Wörtern zusammen. Das System nutzt ausschließlich diesen kurzen Text für die semantische Suche.

Der zweite Baustein enthält den eigentlichen, detailreichen Inhalt. Lernt der KI-Agent im Gesprächsverlauf neue Fakten zu einem bestehenden Thema, hängt er diese direkt an den bestehenden Eintrag an. Das verhindert eine Flut an inhaltlichen Duplikaten.

Zusätzlich erzeugt Memora aus den gespeicherten Texten kurze Schlagwörter. Diese fungieren als flexible Metadaten und bieten alternative Suchpfade zu den Inhalten, ohne ein vorher definiertes Schema zu benötigen.

Quelle: Microsoft

Eigenständige Navigation durch den Kontext

Bei Nutzeranfragen sucht Memora nicht starr nach den ersten passenden Treffern. Ein integriertes Steuerungssystem verfeinert die Suchanfrage schrittweise. Es nutzt die Metadaten, um Querverbindungen zu finden, die eine simple Ähnlichkeitssuche ignorieren würde. Das System ahmt so nach, wie ein Mensch zusammenhängende Ereignisse aus dem Gedächtnis abruft.

Dieser Aufbau schlägt sich direkt in der Leistung nieder. Auf dem LoCoMo-Datensatz, der Dialoge mit durchschnittlich 600 Zügen prüft, erzielt Memora eine Genauigkeit von 86,3 Prozent. Beim LongMemEval-Test mit extrem langen Kontexten von 115.000 Token erreicht das System 87,4 Prozent.

Quelle: Microsoft

Memora schneidet damit besser ab als etablierte Speichersysteme wie RAG, Zep, LangMem und Mem0. Es liefert zudem präzisere Antworten als Modelle, die den kompletten Dialogverlauf ungekürzt verarbeiten müssen. Gleichzeitig legt das Microsoft-System pro Konversation nur knapp halb so viele Speichereinträge an wie Mem0.

Microsoft hat den Code von Memora auf GitHub freigegeben und präsentiert die zugehörige Forschungsarbeit auf der diesjährigen Fachkonferenz ICML.