86.7% Bestehensquote über 30 Testkonversationen. Wir lassen eine feste Suite gegen die Live-Anthropic-API laufen und veröffentlichen die Zahlen — bestanden oder nicht.
Demo-Daten — erster Live-Lauf ausstehend
Bestehensquote
86.7%
Ziel: 85.0%
Durchschnitts-Score
82.0%
Teilanrechnung über alle Checks. Ziel: 80.0%
Halluzinationen geblockt
12
Pre-Send-Guard weist erfundene Bestellnummern ab, bevor sie beim Kunden ankommen.
Letzter Lauf 2026-05-23
Jeder Punkt ist ein vollständiger Eval-Lauf gegen das Live-Modell. Die gestrichelte Linie markiert unser öffentliches Bestehensquoten-Ziel.
Derselbe Eval-Lauf, in zwei Schnitten. Kategorien zeigen, welche Gesprächstypen noch Prompt-Engineering brauchen; Sprachen zeigen, wo Ton oder Terminologie abdriften.
Kategorien mit niedrigerer Quote sind die nächsten Ziele für Prompt-Tuning.
Sprachen mit schwächeren Werten bekommen mehr Prompt-Aufmerksamkeit, bis sie aufholen.
Eine erfundene Bestellnummer ist der schlimmste Fehler einer Support-KI — der Kunde vertraut auf eine falsche Referenz, der Händler wirkt inkompetent. Unser Pre-Send-Guard macht das physisch unmöglich zu senden.
Cumulative
57 Versuche geblockt
Über alle hier veröffentlichten Eval-Läufe hinweg wurden so viele Halluzinationsversuche vor dem Versand abgefangen.
Coverage
6 Läufe geprüft
Jeder Snapshot auf dieser Seite testet den Guard gegen Adversarial-Prompts.
Reliability
100% Block-Rate
Der Guard ist deterministisch — er hängt nicht davon ab, dass das Modell sich gut benimmt.
Source-of-truth: Jede Antwort wird per Regex gegen den `order_name` der erkannten Bestellung geprüft; jede ungematchte #1234-Form führt zur Ablehnung. Siehe `src/lib/ai-eval.ts#detectOrderHallucination`.
OrderWise ist die einzige Shopify-Support-App, die ihre Eval-Scores veröffentlicht. Hier ist die Suite, die jede Zahl auf dieser Seite antreibt.
30+ kuratierte Fälle in Englisch, Deutsch, Französisch und Spanisch. Jede Fixture spiegelt ein echtes Support-Szenario — Bestellverfolgung, Rückerstattungen, fehlender Kontext, mehrteilige Gespräche und gezielte Prompts, die das Modell zu erfundenen Bestellnummern verleiten sollen.
Wir bewerten keine archivierten Antworten. Jeder Lauf trifft die Produktiv-API von Anthropic Claude mit denselben Prompts, die der Händler-Posteingang nutzt — die Zahlen spiegeln also wider, was echte Kunden tatsächlich erhalten.
Jeder Fall listet auf, was die Antwort leisten muss — Sprache, Bestellnummer-Bezüge, erforderliche Tool-Calls, verbotene Phrasen, Wortlimits. Die Checks sind deterministisch: ein Lauf besteht oder eben nicht.
Bevor eine Antwort an Kunden geht, scannen wir sie nach Bestellnummer-artigen Strings, die nicht zur erkannten Bestellung passen. Erfindet das Modell "#9999", lehnen wir den Versand ab. Diese Seite zeigt, wie viele Halluzinationsversuche der Guard abfangen konnte.
100% transparent
Jede Fixture, Erwartung und Gewichtung liegt im öffentlichen Repo. Lass die Suite mit `pnpm eval:ai` gegen deinen eigenen Anthropic-Key laufen.
Teste OrderWise 14 Tage kostenlos. Keine Kreditkarte. Jederzeit kündbar.