Täglich überprüft

KI-Qualität, die du
messen kannst

86.7% Bestehensquote über 30 Testkonversationen. Wir lassen eine feste Suite gegen die Live-Anthropic-API laufen und veröffentlichen die Zahlen — bestanden oder nicht.

Demo-Daten — erster Live-Lauf ausstehend

Bestehensquote

86.7%

Ziel: 85.0%

Durchschnitts-Score

82.0%

Teilanrechnung über alle Checks. Ziel: 80.0%

Halluzinationen geblockt

Pre-Send-Guard weist erfundene Bestellnummern ab, bevor sie beim Kunden ankommen.

Letzter Lauf 2026-05-23

Bestehensquote, letzte Läufe

Jeder Punkt ist ein vollständiger Eval-Lauf gegen das Live-Modell. Die gestrichelte Linie markiert unser öffentliches Bestehensquoten-Ziel.

Wo das Modell glänzt, wo es schwächelt

Derselbe Eval-Lauf, in zwei Schnitten. Kategorien zeigen, welche Gesprächstypen noch Prompt-Engineering brauchen; Sprachen zeigen, wo Ton oder Terminologie abdriften.

Nach Szenario-Kategorie

Kategorien mit niedrigerer Quote sind die nächsten Ziele für Prompt-Tuning.

Nach Sprache

Sprachen mit schwächeren Werten bekommen mehr Prompt-Aufmerksamkeit, bis sie aufholen.

Halluzinations-Abwehr

Eine erfundene Bestellnummer ist der schlimmste Fehler einer Support-KI — der Kunde vertraut auf eine falsche Referenz, der Händler wirkt inkompetent. Unser Pre-Send-Guard macht das physisch unmöglich zu senden.

Cumulative

57 Versuche geblockt

Über alle hier veröffentlichten Eval-Läufe hinweg wurden so viele Halluzinationsversuche vor dem Versand abgefangen.

Coverage

6 Läufe geprüft

Jeder Snapshot auf dieser Seite testet den Guard gegen Adversarial-Prompts.

Reliability

100% Block-Rate

Der Guard ist deterministisch — er hängt nicht davon ab, dass das Modell sich gut benimmt.

Source-of-truth: Jede Antwort wird per Regex gegen den `order_name` der erkannten Bestellung geprüft; jede ungematchte #1234-Form führt zur Ablehnung. Siehe `src/lib/ai-eval.ts#detectOrderHallucination`.

Wie wir KI-Qualität messen

OrderWise ist die einzige Shopify-Support-App, die ihre Eval-Scores veröffentlicht. Hier ist die Suite, die jede Zahl auf dieser Seite antreibt.

1
Feste Test-Konversationen
30+ kuratierte Fälle in Englisch, Deutsch, Französisch und Spanisch. Jede Fixture spiegelt ein echtes Support-Szenario — Bestellverfolgung, Rückerstattungen, fehlender Kontext, mehrteilige Gespräche und gezielte Prompts, die das Modell zu erfundenen Bestellnummern verleiten sollen.
2
Live-Modell, kein Transkript
Wir bewerten keine archivierten Antworten. Jeder Lauf trifft die Produktiv-API von Anthropic Claude mit denselben Prompts, die der Händler-Posteingang nutzt — die Zahlen spiegeln also wider, was echte Kunden tatsächlich erhalten.
3
Deklarierte Erwartungen, kein Bauchgefühl
Jeder Fall listet auf, was die Antwort leisten muss — Sprache, Bestellnummer-Bezüge, erforderliche Tool-Calls, verbotene Phrasen, Wortlimits. Die Checks sind deterministisch: ein Lauf besteht oder eben nicht.
4
Pre-Send-Halluzinations-Guard
Bevor eine Antwort an Kunden geht, scannen wir sie nach Bestellnummer-artigen Strings, die nicht zur erkannten Bestellung passen. Erfindet das Modell "#9999", lehnen wir den Versand ab. Diese Seite zeigt, wie viele Halluzinationsversuche der Guard abfangen konnte.

100% transparent

Jede Fixture, Erwartung und Gewichtung liegt im öffentlichen Repo. Lass die Suite mit `pnpm eval:ai` gegen deinen eigenen Anthropic-Key laufen.

Test-Suite auf GitHub Eval-Framework-Doku

Hör auf zu raten, ob deine Support-KI wirklich gut ist

Teste OrderWise 14 Tage kostenlos. Keine Kreditkarte. Jederzeit kündbar.

OrderWise kostenlos installieren Zurück zur Startseite

KI-Qualität, die dumessen kannst

Bestehensquote, letzte Läufe

Wo das Modell glänzt, wo es schwächelt

Nach Szenario-Kategorie

Nach Sprache

Halluzinations-Abwehr

Wie wir KI-Qualität messen

Feste Test-Konversationen

Live-Modell, kein Transkript

Deklarierte Erwartungen, kein Bauchgefühl

Pre-Send-Halluzinations-Guard

Hör auf zu raten, ob deine Support-KI wirklich gut ist

KI-Qualität, die du
messen kannst