Anthropic's Contextual Retrieval senkt Fehlerrate bei KI-Antworten um 49 %
Ein neuer Ansatz zur Integration von Kontextinformationen verbessert KI-gestützte Abfragen erheblich.

Flux Schnell | All-AI.de
Worum geht es?
Das KI-Unternehmen Anthropic hat eine neue Methode zur Verbesserung der Genauigkeit von Wissensdatenbank-Abfragen entwickelt. Diese als "Contextual Retrieval" bezeichnete Technik fügt zusätzlichen Kontext zu jeder abgefragten Information hinzu, um präzisere Antworten zu generieren. Dabei wird ein häufiges Problem bestehender Retrieval-Augmented Generation (RAG) Systeme gelöst: Der Verlust wichtiger Informationen beim Zerschneiden von Dokumenten in kleinere Einheiten, sogenannte Chunks.
News
Kontext für präzisere Antworten
Traditionelle RAG-Systeme teilen lange Dokumente in kleine, unabhängige Chunks auf, was oft zu ungenauen oder aus dem Zusammenhang gerissenen Antworten führt. Anthropic geht dieses Problem an, indem jedem Chunk eine Zusammenfassung des Gesamtdokuments hinzugefügt wird, bevor er indexiert wird. Diese Zusammenfassung enthält wichtige Kontextinformationen und ist in der Regel bis zu 100 Wörter lang.
Ein Beispiel verdeutlicht den Ansatz:
- Ursprünglicher Chunk: „Der Umsatz des Unternehmens stieg im Vergleich zum Vorquartal um 3 Prozent.“
- Erweiterter Chunk: „Dieser Abschnitt stammt aus einem SEC-Bericht über die Leistung von ACME Corp im zweiten Quartal 2023. Der Umsatz im Vorquartal betrug 314 Millionen Dollar. Der Umsatz des Unternehmens stieg im Vergleich zum Vorquartal um 3 Prozent.“
Diese Methode sorgt dafür, dass bei einer Abfrage mehr relevante Informationen aus dem Gesamtdokument einfließen, was die Genauigkeit der Antworten erheblich verbessert. Laut Anthropic kann die Fehlerrate bei der Informationssuche um bis zu 49 Prozent gesenkt werden. In Kombination mit einer Neusortierung der Suchergebnisse sei sogar eine Verbesserung um 67 Prozent möglich.
Einfach in bestehende Systeme zu integrieren
Ein großer Vorteil des neuen Ansatzes von Anthropic ist, dass er mit relativ geringem Aufwand in bestehende RAG-Systeme integriert werden kann. Anthropic hat zudem eine detaillierte Anleitung mit Code-Beispielen auf Github veröffentlicht, damit Entwickler die Methode selbst ausprobieren und implementieren können.
Die Forscher betonen, dass jeder Entwickler, der an einer Verbesserung von RAG-Systemen interessiert ist, sich mit der Contextual Retrieval-Methode auseinandersetzen sollte, um die Genauigkeit und Effizienz von Wissensabfragen zu steigern.
Bestätigung durch Forschungsergebnisse
Die Wirksamkeit des Ansatzes wird auch durch aktuelle Forschungsergebnisse der Cornell University unterstützt. In einem Paper stellten die Wissenschaftler eine ähnliche Methode namens "Contextual Document Embeddings" (CDE) vor, die ebenfalls den Kontext von Dokumenten nutzt, um genauere Ergebnisse zu erzielen.
Die Forscher entwickelten zwei sich ergänzende Techniken:
1. Kontextuelles Training: Dabei werden die Trainingsdaten so umgeordnet, dass das Modell feinere Unterschiede zwischen ähnlichen Dokumenten lernt.
2. Kontextuelle Architektur: Ein zweistufiger Encoder-Prozess integriert Informationen aus benachbarten Dokumenten in die Embeddings, um relative Häufigkeiten und kontextabhängige Informationen besser zu berücksichtigen.
Laut den Forschern zeigen beide Techniken unabhängig voneinander Verbesserungen, die besten Ergebnisse lassen sich jedoch durch ihre Kombination erzielen. Das CDE-Modell erzielte in Tests auf dem MTEB-Benchmark Bestwerte und zeigte besonders bei kleineren Datensätzen in Bereichen wie Finanzen und Medizin Vorteile. Diese Verbesserungen wurden auch bei Aufgaben wie Klassifikation und semantischer Ähnlichkeit festgestellt.
Ausblick
Die Fortschritte im Bereich Contextual Retrieval und CDE zeigen das Potenzial, die Genauigkeit von KI-gestützten Wissensabfragen erheblich zu verbessern. Beide Ansätze bieten Lösungen für gängige Probleme bei der Handhabung großer Datenmengen und eröffnen neue Möglichkeiten, KI-Systeme effizienter und präziser zu gestalten. Zukünftige Forschung wird sich darauf konzentrieren, wie diese Methoden in riesigen Datenbanken mit Milliarden von Dokumenten angewendet werden können und welche Auswirkungen dies auf verschiedene Anwendungsbereiche haben wird.

Short
- Anthropic hat mit „Contextual Retrieval“ eine Methode entwickelt, die präzisere Antworten bei Wissensabfragen liefert, indem sie den Kontext eines gesamten Dokuments zu den abgefragten Chunks hinzufügt.
- Der Ansatz senkt die Fehlerrate um bis zu 49 % und kann mit minimalem Aufwand in bestehende RAG-Systeme integriert werden.
- Forschungen der Cornell University unterstützen den Ansatz und zeigen weitere Verbesserungen durch kontextuelle Embeddings.
- Zukünftige Entwicklungen könnten die Genauigkeit und Effizienz von KI-Systemen weiter steigern, besonders bei großen Datenmengen.