xahead logoxahead

AI Agents in Produktion, ohne Hype

5 Min Lesezeit

In 30 Tagen zu echten Ergebnissen

Die letzten zwei Jahre waren voll von Demos, Roadmaps und Versprechungen. Was heute zählt, ist die nüchterne Frage: Welche Agenten-Arbeiten funktionieren bereits stabil im Alltag – zu welchen Kosten, mit welchen Risiken – und wie beweise ich den Nutzen so, dass ein CFO unterschreibt? Hier ist der kleinste gemeinsame Nenner aus Projekten, die laufen, mit Kennzahlen, die jede Führungskraft akzeptiert.

Definition, ohne Zauber: Ein AI Agent ist kein magischer Mitarbeiter, sondern eine gekapselte Abfolge aus Abrufen, Vorschlagen, Prüfen, Handeln. Der Agent fragt Daten ab, entwirft einen Vorschlag, prüft gegen Regeln und schreibt ins System zurück.

30-Tage-Prüfung: Die Erfolgslogik ist trivial, aber selten diszipliniert umgesetzt. Definiert einen Prozess feingranular mit klarer Stückzahl pro Woche und klaren Servicezielen (z.B. Bearbeitungszeit, Fehlerquote). Erfasst eine Woche Baseline ohne Agent (z.B. durchschnittliche Bearbeitungsdauer, Erstlösungsquote, Anteil Standardfälle, Eskalationen). Aktiviert den Agenten in einer eng abgegrenzten Teilmenge (z.B. nur Standardfragen zu Produkt A, nur Tickets < 500 €, nur Dokumente mit vorliegender Freigabe) – und messt dieselben Kennzahlen erneut, plus die Kontrollzeit des Menschen pro Fall und eine etwaige Korrekturquote. Rechnet dann in harten Einheiten: eingesparte Minuten pro Fall × Fallzahl pro Woche × konservativem Kostensatz. Zieht Cloud- und Lizenzkosten ab. Wenn am Ende Nettoeinsparung pro Woche übrig bleibt und die Qualitätsmetriken nicht schlechter werden, habt ihr Beweis statt Story.

Was funktioniert heute zuverlässig? Erstens interne Suche mit RAG, sofern Index und Rechte sauber sind – das senkt Suchzeiten deutlich, ohne Policies zu brechen. Zweitens Ticket-Vorqualifizierung, die Betreffzeilen normalisiert, fehlende Pflichtangaben ergänzt, eine erste Dringlichkeit einschätzt und passende Vorlagen vorschlägt. Das reduziert Wartezeiten und entlastet Teams, ohne Entscheidungen zu automatisieren. Drittens Dokumenten-Assists, die aus strukturierten Quellen Standardtexte generieren (z.B. Angebotsbausteine, Quartalsberichte). Das spart Schreibzeit und glättet Qualitätsunterschiede. Viertens kundenseitige Assistenten an klaren Grenzen (häufige, gut dokumentierte Fragen selbst beantworten und bei Unsicherheit sauber an Menschen übergeben). In allen vier Kategorien gilt: Der Agent muss zitieren können, auditierbar sein und bei Unsicherheit abgeben.

Was scheitert regelmäßig? Freie Exploration ohne Datenbasis liefert hübsche Texte statt verlässlicher Antworten. Monolithische Agenten, die „alles können“ sollen, verzetteln sich in Klarheit, Kosten und Governance. Automatisierte Entscheidungen ohne Eskalationspfad sind ein Risiko für Compliance und Vertrauen. Gegenmittel sind unspektakulär: klare Aufgaben, kleiner Aktionsraum, sichtbare Quellen, messbare Grenzwerte.

Technische Minimalarchitektur: Ein sauberes Zugriffssystem (der Agent sieht nur, was er darf). Eine robuste Retrieval-Schicht mit Chunking, Hybrid-Suche mit Vektor- und Volltextsuchen und Re-Ranking, damit der Kontext wirklich relevant ist. Ein Reasoning-fähiges Modell, das mit wenig Halluzination auskommt (z.B. OpenAI's GPT-5) und die Kette seiner Schritte festhält (siehe vorherige Sektion). Eine schlanke Rule-Engine für Stop-Kriterien und Eskalation. Logging mit Zeitstempeln, Eingaben, Ausgaben, Tool-Calls. Mehr braucht der erste Monat nicht. (Alles Weitere – vom Workflow-Designer bis zum Langzeitgedächtnis – kommt nach Beweis der Wirkung.)

CFO-taugliche Mathematik: Nehmen wir einen Bereich mit 1 200 Fällen pro Monat. Baseline: Ø 7 Minuten manuelle Bearbeitung pro Fall, 6 % Nacharbeit wegen fehlender Infos. Pilot mit Agent: manuelle Bearbeitung sinkt auf 3 Minuten (Agent füllt den Rest), Nacharbeit auf 3 % (Agent vergisst nichts Relevantes), Betriebskosten ~0,18 € pro Fall. Bei konservativen 0,60 € internen Kostensatz pro Minute entspricht die Zeitersparnis 4 Min × 0,60 € = 2,40 € pro Fall. Abzüglich 0,18 € Opex bleiben ~2,22 € Netto pro Fall. × 1 200 Fälle = ~2 660 € pro Monat – ohne Nebeneffekte wie weniger Wartezeit, weniger Eskalationen, zufriedenere Mitarbeiter. Dreht diese Rechnung so streng wie ihr wollt; wenn sie auch unter pessimistischen Annahmen positiv bleibt, habt ihr grünes Licht für die nächste Stufe.

Warum das jetzt schon geht: Große Anbieter haben in den letzten zwölf Monaten die Bausteine stabilisiert, die Unternehmen brauchen. Modelle begründen Antworten besser, Retrieval wird reifer, Governance-Funktionen gibt es in Enterprise-Produkten. Zusätzlich zeigt die öffentliche Falllage, dass klar abgegrenzte Use Cases in Kundenservice, Wissensarbeit und interner IT tragfähige Ergebnisse liefern. Entscheidend ist nicht das Versprechen eines Generalagenten (der kommen wird!), sondern erst einmal die saubere Definition eines kleinen Aufgabenraums mit klaren Qualitätsmaßen.

Was ihr morgen tun könnt: Wählt einen Prozess mit vielen Standardfällen und klaren Regeln. Messt eine Woche sauber vor. Schaltet den Agenten in einem eng umrissenen Segment live. Erzwingt Zitate bei jeder Antwort. Gebt dem Agenten einen klaren Abbruchpunkt und einen Eskalationsweg. Führt ein wöchentliches Review mit drei Zahlen durch: Anteil automatisch gelöster Fälle, Ø Bearbeitungszeit, Korrekturquote. Wenn zweimal in Folge alle drei Zahlen stimmen, verdoppelt den Scope. Wenn nicht, schmälert den Aufgabenraum, verbessert Retrieval oder Regeln via Prompt und wiederholt. In 3–4 Iterationen bekommt ihr ein System, das messbar wirkt und beherrschbar bleibt.

Der größte Fehler wäre, auf eine perfekte, allgemeine Lösung zu warten. Unternehmen, die heute profitieren, haben klein angefangen, die Beweise geschrieben und den Rahmen graduell erweitert. Genau darum ist der richtige Pilot wertvoller als das nächste Whitepaper. (Wenn ihr möchtet, liefern wir die Pilotreife aus einer Hand: Auswahl Prozess, messbare Baseline, schlanke Architektur, Red-Team-Review, CFO-Mathematik, Go-Live in 30 Tagen. Danach entscheiden Zahlen, nicht Narrative.)

Noch ein inspirierender Blick der schon relativ weit in der Vergangenheit liegt: Morgan Stanley hat GPT-4 (schon vor Ewigkeiten) intern ausgerollt, um Berater:innen auf Knopfdruck die richtigen Inhalte aus dem eigenen Wissensschatz zu liefern. Inzwischen nutzen über 98 % der Advisor-Teams aktiv den AI Assistant – die Reibung zwischen Frage und Antwort ist quasi verschwunden. Mit Eval-getriebenem Ausbau und getunten Retrieval-Methoden schaffte man es dort, jede Kundenfrage aus einem Korpus von 100 000 Dokumenten zuverlässig zu beantworten. Und ein Experiment in einem anderen Sektor zeigte: KI-Assistenz steigerte die gelösten Kundenanliegen pro Stunde um ~15 %, besonders bei Junior-Mitarbeitern. Das alles passiert jetzt noch deutlich mehr. Zeit, dass wir euren Case hinzufügen. Heute haben wir GPT-5, damals nicht.

Nächster Schritt?

Lassen Sie uns Ihre Use Cases in 30 Minuten prüfen.

Erstgespräch buchen