Reasoning als System

Viele verwenden KI, als sei sie eine Copy&Paste-Maschine für Texte: man gibt eine Aufgabe ein, bekommt eine Antwort, hofft, dass sie stimmt. Das ist Musterergänzung. Reasoning ist etwas anderes. Reasoning bedeutet, dass ein System eine Aufgabe zerlegt, Annahmen offenlegt, Wissen beschafft, Zwischenergebnisse prüft, Alternativen vergleicht und dann eine Entscheidung mit Begründung trifft. Das ist kein Prompt-Trick, sondern eine Frage von Architektur, Betrieb und Metriken. Genau das liefern wir als Service und Software.

Grundsatz 1: Zerlegung vor Generierung. Jede komplexe Aufgabe wird in Ziele, Nebenbedingungen, Unteraufgaben und Checks geschnitten. Das System weiß, was es beweisen will, welche Daten es braucht und wie Richtigkeit geprüft wird. Ohne explizite Zerlegung bleibt das Modell im Stil hängen, nicht in der Sache. Wei et al. (2022) zeigten, dass Chain-of-Thought-Prompting LLMs hilft, Probleme in Teilschritte zu zerlegen – und dass sich der Effekt vor allem in ausreichend großen Modellen (≈100B+) deutlich zeigt. Das waren emergent properties in LLMs in den „GPT-3-Scale“-Zeiten. Heute gießen wir das als explizite Agent-Struktur: Orchestrierung über generalistische Reasoning-Modelle (z. B. GPT-5, end-to-end RL training) mit Planner-/Solver-/Checker-Rollen; Ein Planner setzt Teilschritte und Abhängigkeiten fest, bevor irgendwas gelöst wird.

Grundsatz 2: Retrieval ist Pflicht, kein Nice-to-have. Reasoning ohne externe Evidenz ist Meinungsbildung. Wir verbinden deshalb Modelle mit kuratierten Quellen, internen Repositories und Tools. Antworten verweisen bei uns auf verwendete Belege – jede Aussage wird mit Quelle + Zeilenspanne markiert. Dadurch wird jede Behauptung nachprüfbar und Halluzination drastisch reduziert. Bottom line hier ist: Das System darf gar nicht raten, sondern muss belegen oder schweigen.

Grundsatz 3: Rollen statt Monolith. Wir bauen Denkrollen, die explizit zusammenarbeiten: Ein Planner zerlegt die Aufgabe, ein Researcher beschafft Evidenz, ein Solver rechnet oder entwirft Lösungen, ein Critic prüft Annahmen und Logik, ein Synthesizer verdichtet das Ergebnis. Diese Rollen können in einem System nach Liste laufen, aber die Pfade und Übergaben sind explizit. So wird Denken reproduzierbar.

Grundsatz 4: Tests sind Teil der Aufgabe. Für jede Unteraufgabe definieren wir Checks. Eine Budgetplanung wird gegen Randbedingungen geprüft (Summe vs. Limit, etc.). Ein Code wird gegen Unit-Tests ausgeführt. Ein Textentwurf wird gegen Styleguide und Fakten gecheckt. Ein Datenabruf wird gegen Schemas validiert. Ohne solche eingebaute Tests ist jeder Output erstmal Behauptung. Große Fortschritte (z.B. AlphaCode von DeepMind) beruhten genau hierauf: statt nur Code zu generieren, wurden tausende Varianten ausgeführt und mit Beispieltests gefiltert, um zuverlässige Lösungen zu finden. Unser System tut das inline – jeder Lösungsentwurf bekommt eine Prüfschleife, bevor er weiterwandert.

Grundsatz 5: Maßzahlen statt Bauchgefühl. Wir messen Reasoning-Leistung mit mehreren Metriken: Coverage – wie viel der Ziele und Randbedingungen wurden tatsächlich abgedeckt? Korrektheit – wie hoch ist die Pass-Rate der Tests/Checks? Kohärenz – sind die Schritte widerspruchsfrei untereinander? Kalibrierung – schätzt das System seine eigene Unsicherheit sinnvoll ein (z.B. abstufen nach Risiko)? Und natürlich Latenz und Kosten pro Ergebnis. So wird Qualität steuerbar. (Im Prinzip führen wir damit Engineering-KPIs in Wissensarbeit ein – eine kleine Revolution für repetitive White-Collar-Work-Tasks.)

Grundsatz 6: Wahrheit im Fluss. Reasoning braucht kurze Feedback-Loops. Telemetrie, Diff-Ansichten, Quellverweise, Vergleich mit Baselines und mini-inkrementelle Releases erlauben Korrektur im Flug. Die beste Antwort ist die, die heute gut genug ist und morgen mit neuer Evidenz noch besser wird. Unser System loggt jeden Schritt mit Zeitstempel und Versionsstand – wir können daher neben dem Endergebnis auch jede einzelne Schlussfolgerung später verifizieren und anpassen.

Grundsatz 7: Guardrails praktisch, nicht nur auf Folien. Zugriff auf interne Daten folgt strikt Zugriffsrechten. Vertrauliche Inhalte werden maskiert (oder gar nicht erst indexiert). Jede externe Quelle ist datiert und benannt. Das System protokolliert alle Zwischenschritte lückenlos zur Prüfung. Damit erfüllen wir Compliance und geben Teams ein Werkzeug, dem sie vertrauen können. (Ein LLM, das interne Policies ignoriert oder Blackbox-Entscheidungen fällt, kommt bei uns gar nicht erst an den Start.)

Grundsatz 8: Mensch entscheidet, Modell begründet. Unser System liefert Optionen mit Begründungen, Trade-offs und einer Empfehlung. Der Entscheider sieht, welche Annahmen die Empfehlung tragen und wo alternative Pfade abgeschnitten wurden. Das reduziert Meeting-Zeit massiv, weil die Diskussion auf Fakten und Abwägungen fokussiert – nicht auf vages Meinungsgerangel. Wichtig: Am Ende drückt ein Mensch den Button, aber die Entscheidungsgrundlage hat bereits Maschinen-Präzision in alle Denk-Richtungen.

Wie sieht das im Betrieb aus? Beispiel: Ein Team fragt, „Welche drei Markteintritts-Szenarien für Q4 sind realistisch und welches empfehlen wir?“ – Der Planner macht daraus Teilaufgaben auf Basis seiner Liste: Ziele definieren (z.B. Umsatz, Risiko), Constraints sammeln (Budget, Regulatorik), Datenquellen identifizieren (Marktdaten, interne KPIs), Evaluationskriterien festlegen. Der Researcher holt aktuelle Markt- und interne Kennzahlen mit Quellenangabe (z.B. Umsatzprognosen, Kostenannahmen, historische Vergleiche). Der Solver entwirft drei Szenarien A, B, C mit Annahmen zu Nachfrage, Kosten, Risiken. Der Critic prüft alle Zahlen gegen die Quellen, testet Sensitivitäten (z.B. worst-case Nachfrage – platzt das Modell?) und sucht Gegenargumente (z.B. „Szenario B scheitert, wenn Zulieferer X ausfällt“). Der Synthesizer verdichtet das Ganze auf eine Seite: Empfehlung „Szenario B“, mit rationaler Begründung, Kennzahlen je Szenario in einer Tabelle, Risiken als Bulletpoints, optionalen Maßnahmen pro Fall. Jede Zahl ist klickbar und führt zur Quelle (z.B. eine Excel-Zeile aus Finance, ein Absatz aus einer Studie). Jede Annahme ist im Text markiert und in einer Fußnote begründet („Kosten +5 % angenommen wegen Inflationstrend, Quelle: IMF-Bericht“). Änderungen in den Daten (z.B. eine aktualisierte Prognose) lösen automatische Re-Checks aus und flaggen die Stellen, wo sich das Fazit ändern könnte.

Was bringt das konkret? Teams verkürzen die Zeit von Frage zu tragfähiger Entscheidung drastisch. Wissensarbeit wird reproduzierbar, weil die Kette aus Frage → Evidenz → Abwägung → Empfehlung erhalten bleibt. Onboarding neuer Kollegen wird leichter, weil sie den Denkweg nachlesen können. Risiken sinken, weil Fehlannahmen früher sichtbar werden. Und Qualität steigt, weil Alternativen nicht nur erwähnt, sondern durchgerechnet wurden.

Wie liefern wir das? Als Service starten wir mit einem zweiwöchigen Sprint auf eine echte Geschäftsfrage. Wir bauen die Reasoning-Pipeline, schließen die relevanten Datenquellen an, definieren Tests und liefern ein erstes Ergebnis inklusive Audit-Trail. Parallel richten wir die Software in eurer Umgebung ein. Das ist ein leichtgewichtiges Reasoning-Backend mit Rollen, Retrieval, Tooling, Tests und Telemetrie. Es läuft auf eurer Infrastruktur oder in einer EU-Cloud, respektiert eure Zugriffsrechte und schreibt lückenlose Logs. Danach entscheidet ihr, ob wir den Umfang erweitern, weitere Use Cases onboarden oder das System an euer Team übergeben.

Wo funktioniert das besonders gut? Strategie und Planung mit klaren Nebenbedingungen. Research und Synthese für Management-Entscheidungen. Operations-Analysen mit wiederkehrenden Mustern. Regulatorische Antworten mit Quellenpflicht. Technische Dokumentation, die nicht nur erklärt, sondern belegt. Überall dort, wo bisher viel Zeit mit Suchen, Zusammenkopieren und Abstimmen verloren geht, schafft strukturiertes Reasoning Tempo und Sicherheit.

Worauf wir achten: Wir setzen Reasoning dort ein, wo es Mehrwert bringt. Für schnelle, einfache Aufgaben reicht oft Musterergänzung (einmal direkt gefragt, Antwort generiert, fertig). Für komplexe, risikobehaftete oder teure Entscheidungen lohnt die Struktur. Wir halten den Stack so einfach wie möglich und so offen wie nötig. Und wir optimieren nicht nur Antworten, sondern den Denkweg. Denn nur ein guter Denkweg lässt sich wiederholen.

Wenn ihr es ausprobieren wollt, bringt eine echte Frage mit. Wir bringen Struktur, Quellen und einen klaren Takt. In 2 Wochen liegt ein geprüftes Ergebnis auf dem Tisch – inklusive System, das es jederzeit wieder liefern kann. Reasoning wird dann nicht versprochen, sondern betrieben.

Nächster Schritt?