RAG, das wirklich funktioniert

Wissensarbeit messbar schneller und verlässlicher machen

Retrieval-Augmented Generation hat einen einfachen Kernsatz: Antworten werden nur produziert, wenn passende Belege gefunden und zitiert werden. Alles, was in der Praxis schiefgeht, kommt von Verstößen gegen diesen Satz. Im Folgenden steht ein praxistauglicher Blueprint, der in vier Wochen vom ersten Dokumentstapel zu einem belastbaren Piloten führt. Kein Hype, nur Bausteine, die sich in Produktion bewährt haben.

Beginnen wir mit einer Minimalarchitektur. Ihr braucht genau fünf Komponenten: (1) eine Quelle der Wahrheit mit Zugriffskontrolle (z.B. SharePoint, Confluence, Google Drive oder Filesystem mit Rollen). (2) eine robuste Indizierungsschicht: Dokumente werden in sinnvolle Abschnitte zerlegt, Struktur bleibt als Metadaten erhalten, Tabellen und Bilder werden OCR- und layout-bewusst verarbeitet. (3) einen Retriever, der hybrid suchen kann – Volltext und dichte Vektoren kombiniert – und einen Re-Ranker, der die besten Treffer wirklich nach vorne bringt. (4) ein Modell, das Antworten nur aus dem gelieferten Kontext bildet, mit harten Abbruchkriterien bei fehlender Evidenz. (5) ein Audit-Log, das für jede Antwort die genutzten Dokumente, Textspannen, Scores und alle Zwischenschritte mit Zeitstempel speichert.

Die meisten Qualitätsprobleme lassen sich mit fünf Prinzipien vermeiden: Regel 1: Rechte werden vor dem Retrieval gefiltert, nicht danach. Der Index muss pro Nutzer oder Gruppe filterbar sein – sonst droht Datenabfluss. Regel 2: Chunking folgt der Dokumentstruktur, nicht einer Fantasiegröße. In der Praxis bewähren sich Abschnitte in der Größenordnung von 3–8 Absätzen mit kleiner Überlappung. Gliedert entlang von Überschriften, Listen, Tabellen und hebt Einheiten (Absatz, Tabelle, Bild) als Metadaten auf. Regel 3: Hybrid zuerst, Re-Ranking immer. Holt großzügig (z.B. Top 30–50 Kandidaten via BM25 + Embedding) und lasst dann einen Cross-Encoder streng auf 5–8 Belege verdichten. Reine Vektorsuche ist selten stabil genug, reine Keyword-Suche verpasst Synonyme – die Kombination beider liefert die beste Qualität. Regel 4: Antworten sind immer zitierpflichtig. Jede Aussage zeigt Quellen mit anklickbaren Spannen. Wenn keine passende Quelle existiert, sagt das System dies explizit (statt zu halluzinieren). Regel 5: Evaluiert getrennt nach Recall, Precision und Faithfulness (siehe vorheriger Abschnitt). Recall misst, ob die richtigen Passagen überhaupt in Top K landen. Precision misst, ob die gewählten Passagen wirklich relevant sind. Faithfulness misst, ob die Antwort nur sagt, was im Kontext steht. Nur wenn alle drei grün sind, ist das System reif für einen größeren Rollout.

Aus diesen Regeln folgt ein klarer Vier-Wochen-Plan: Woche 1: Scope, Datenlage und Governance klären. Wählt eine Domäne mit klaren Dokumentarten, wiederkehrenden Fragen und überschaubaren Berechtigungen. Sammelt 50–100 echte Nutzerfragen (aus Tickets, Chatlogs etc.) und markiert dazu jeweils die korrekte Quelle. Das ist euer Goldstandard für die spätere Messung. Woche 2: Index bauen. Dokumente strukturiert zerlegen, Formate normalisieren, Tabellen sauber extrahieren. Metadaten an jeden Abschnitt hängen (z.B. Gültigkeitsdatum, Autor, Version, Sprache, Berechtigungsstufe). Hybride Suche + Re-Ranker aktivieren. Woche 3: Testen und justieren. Führt auf dem Goldset die Messung durch. Wenn der Recall in Top 30 deutlich unter 95 % liegt, verbessert Index und Terminologie (Synonyme, Taxonomien). Wenn der Re-Ranker nicht zuverlässig verdichtet, erhöht Kandidatenzahl oder nehmt ein stärkeres Re-Ranking-Modell. Misst Faithfulness mit strengem Regelwerk: Eine Antwort ohne Quelle ist ein Fehler (außer die Frage war nicht beantwortbar). Woche 4: Pilot mit begrenzter Nutzergruppe. Serviceziele festlegen (z.B. Ø Antwortzeit, Anteil beantworteter Fragen, Anteil Antworten mit ≥ 2 Quellen, Anteil menschlicher Eskalation). Wöchentliches Review einplanen, Kennzahlen gegen Baseline halten.

Wie sieht eine CFO-taugliche Rechnung aus? Nehmen wir 800 interne Wissensfragen pro Monat, heute bearbeitet per Chat/Mail. Baseline: Ø 6 Minuten Suchzeit pro Frage. Ein RAG-System liefert im Schnitt in 45 Sekunden eine begründete Antwort mit zwei Quellen; in 15 % der Fälle eskaliert ein Mensch und investiert nochmal 3 Minuten. Ergibt grob 2 Minuten Restaufwand pro Frage. Zeitersparnis pro Frage ~4 Minuten. Rechnen wir mit einem konservativen internen Kostensatz pro Minute und den Laufzeitkosten pro Abfrage. Wenn die Nettoersparnis selbst unter pessimistischen Annahmen positiv ist und die Qualitätsmetriken stabil bleiben, ist der Case gemacht.

Wichtige Anti-Patterns sind gut bekannt: Ein großer, unstrukturierter PDF-Friedhof produziert schwachen Recall – egal wie fein die Embeddings sind. Antworten ohne harte Zitatanforderung wirken anfangs beeindruckend, verursachen später Fehlerkosten. Zu kleine Chunks zerstören Kontext, zu große erhöhen Rauschen. Ein einzelner globaler Index ohne Berechtigungsfilter ist ein Risiko. Der schnelle Weg „alles in einen Topf werfen und ein Riesenmodell drüber“ spart Setup-Zeit, kostet später aber marginal Qualität; wir optimieren an jeder Stelle.

Technische Stellschrauben: Nutzt Feld- und Metadatenfilter im Retriever, damit ihr gezielt nach Sprache, Dokumentart, Gültigkeit einschränken könnt (z.B. nur aktuelle Preislisten auf Deutsch). Aktiviert Terminologie-Synonyme für Produktnamen und Abkürzungen, die bei euch üblich sind. Fahrt einen Korpus-Refresh nach definierten Ereignissen (z.B. nach Release, neuer Preisrunde, Policy-Änderung). Loggt pro Antwort die Top-30 Kandidaten vor Re-Ranking mit Scores – diese Daten sind der schnellste Weg, Recall-Lücken sichtbar zu machen. Implementiert einfache Stop-Regeln: Wenn z.B. die beste Passage unter Score X liegt oder die Top-Passagen sich widersprechen, wird eskaliert statt geantwortet. Orchestriert euren Kontext richtig.

So wird aus RAG ein verlässliches Arbeitswerkzeug statt Demo-Effekt. Mitarbeitende sehen, dass Antworten nicht aus der Luft kommen, sondern aus eigenen Dokumenten. Rechtsabteilungen sehen, dass Zugriffsrechte respektiert werden. Führungskräfte sehen, dass Suchzeit sinkt und Nachfragen abnehmen. Entwickler-Teams haben klare Hebel, wenn etwas nicht funktioniert. Das System wird nicht nur dadurch gut, dass ein größeres Modell mit mehr test-time compute eingesetzt wird, sondern auch vor allem dadurch, dass Retrieval, Re-Ranking, Zitate und Regeln mit state-of-the-art AI-Modellen zusammenspielen.

Wenn ihr morgen anfangen möchtet: Wählt eine Domäne mit klarer Dokumentlage – z.B. Vertriebsunterlagen, interne Policies oder Produktdokumentation. Sammelt echte Fragen, markiert korrekte Antworten inkl. Quellen, baut einen ersten Index, messt Recall & Faithfulness, korrigiert systematisch, geht dann live. In 4 Wochen habt ihr ein System, das man messen, auditieren und erweitern kann. Genau so baut man Vertrauen auf – und genau so entsteht messbarer Nutzen.

Nächster Schritt?