Microsoft gibt KI endlich ein echtes Langzeitgedächtnis
Das neue System Memora merkt sich Projektdetails über Monate. Dabei spart es auch noch enorm viel Rechenleistung.

Microsoft Research hat am Montag ein Speichersystem veröffentlicht, das KI-Assistenten über Monate hinweg komplexe Projektdetails behalten lässt. Die Memora genannte Architektur trennt ausführliche Inhalte von kurzen Suchindizes und senkt den Token-Verbrauch in langen Konversationen um bis zu 98 Prozent.
Das Ende des flüchtigen Kontexts
Aktuelle Sprachmodelle starten jede neue Sitzung bei null. Sollen sie über längere Zeiträume als Assistenten dienen, müssen sie ihre gesamte Historie bei jeder Anfrage neu einlesen oder auf fehleranfällige Hilfssysteme zurückgreifen.
Bisherige Speichermethoden erzwingen dabei einen Kompromiss. Ansätze wie Mem0 oder Retrieval-Augmented Generation (RAG) sichern rohe Textfragmente, wodurch der inhaltliche Zusammenhang oft abreißt. Andere Verfahren komprimieren Dialoge zu groben Zusammenfassungen. Dabei gehen spezifische Details, Randbedingungen und Zahlenwerte verloren.
Anzeige
Zwei Schichten für die Informationssuche
Memora entkoppelt das Speichern vom Suchen. Jeder Eintrag in diesem System besteht aus zwei Bausteinen. Die »Primary Abstraction« fasst das Kernthema in sechs bis acht Wörtern zusammen. Das System nutzt ausschließlich diesen kurzen Text für die semantische Suche.
Der zweite Baustein enthält den eigentlichen, detailreichen Inhalt. Lernt der KI-Agent im Gesprächsverlauf neue Fakten zu einem bestehenden Thema, hängt er diese direkt an den bestehenden Eintrag an. Das verhindert eine Flut an inhaltlichen Duplikaten.
Zusätzlich erzeugt Memora aus den gespeicherten Texten kurze Schlagwörter. Diese fungieren als flexible Metadaten und bieten alternative Suchpfade zu den Inhalten, ohne ein vorher definiertes Schema zu benötigen.
Quelle: Microsoft
Eigenständige Navigation durch den Kontext
Bei Nutzeranfragen sucht Memora nicht starr nach den ersten passenden Treffern. Ein integriertes Steuerungssystem verfeinert die Suchanfrage schrittweise. Es nutzt die Metadaten, um Querverbindungen zu finden, die eine simple Ähnlichkeitssuche ignorieren würde. Das System ahmt so nach, wie ein Mensch zusammenhängende Ereignisse aus dem Gedächtnis abruft.
Dieser Aufbau schlägt sich direkt in der Leistung nieder. Auf dem LoCoMo-Datensatz, der Dialoge mit durchschnittlich 600 Zügen prüft, erzielt Memora eine Genauigkeit von 86,3 Prozent. Beim LongMemEval-Test mit extrem langen Kontexten von 115.000 Token erreicht das System 87,4 Prozent.
Quelle: Microsoft
Memora schneidet damit besser ab als etablierte Speichersysteme wie RAG, Zep, LangMem und Mem0. Es liefert zudem präzisere Antworten als Modelle, die den kompletten Dialogverlauf ungekürzt verarbeiten müssen. Gleichzeitig legt das Microsoft-System pro Konversation nur knapp halb so viele Speichereinträge an wie Mem0.
Microsoft hat den Code von Memora auf GitHub freigegeben und präsentiert die zugehörige Forschungsarbeit auf der diesjährigen Fachkonferenz ICML.

