Täglich überprüft

KI-Qualität, die du
messen kannst

86.7% Bestehensquote über 30 Testkonversationen. Wir lassen eine feste Suite gegen die Live-Anthropic-API laufen und veröffentlichen die Zahlen — bestanden oder nicht.

Demo-Daten — erster Live-Lauf ausstehend

Bestehensquote

86.7%

Ziel: 85.0%

Durchschnitts-Score

82.0%

Teilanrechnung über alle Checks. Ziel: 80.0%

Halluzinationen geblockt

12

Pre-Send-Guard weist erfundene Bestellnummern ab, bevor sie beim Kunden ankommen.

Letzter Lauf 2026-05-23

Bestehensquote, letzte Läufe

Jeder Punkt ist ein vollständiger Eval-Lauf gegen das Live-Modell. Die gestrichelte Linie markiert unser öffentliches Bestehensquoten-Ziel.

0%25%50%75%100%Ziel: 85.0%2026-04-25: 73.3% (22/30)2026-05-02: 76.7% (23/30)2026-05-09: 80.0% (24/30)2026-05-16: 80.0% (24/30)2026-05-20: 83.3% (25/30)2026-05-23: 86.7% (26/30)04-2505-0205-0905-1605-2005-23

Wo das Modell glänzt, wo es schwächelt

Derselbe Eval-Lauf, in zwei Schnitten. Kategorien zeigen, welche Gesprächstypen noch Prompt-Engineering brauchen; Sprachen zeigen, wo Ton oder Terminologie abdriften.

Nach Szenario-Kategorie

Kategorien mit niedrigerer Quote sind die nächsten Ziele für Prompt-Tuning.

GrundlagenGrundlagen: 100.0% (10 pass / 0 fail)100.0% (10/10)FAQFAQ: 100.0% (5 pass / 0 fail)100.0% (5/5)BestellverfolgungBestellverfolgung: 80.0% (4 pass / 1 fail)80.0% (4/5)RückerstattungenRückerstattungen: 80.0% (4 pass / 1 fail)80.0% (4/5)MehrsprachigMehrsprachig: 60.0% (3 pass / 2 fail)60.0% (3/5)

Nach Sprache

Sprachen mit schwächeren Werten bekommen mehr Prompt-Aufmerksamkeit, bis sie aufholen.

FranzösischFranzösisch: 100.0% (3 pass / 0 fail)100.0% (3/3)EnglischEnglisch: 90.9% (10 pass / 1 fail)90.9% (10/11)DeutschDeutsch: 84.6% (11 pass / 2 fail)84.6% (11/13)SpanischSpanisch: 66.7% (2 pass / 1 fail)66.7% (2/3)

Halluzinations-Abwehr

Eine erfundene Bestellnummer ist der schlimmste Fehler einer Support-KI — der Kunde vertraut auf eine falsche Referenz, der Händler wirkt inkompetent. Unser Pre-Send-Guard macht das physisch unmöglich zu senden.

Cumulative

57 Versuche geblockt

Über alle hier veröffentlichten Eval-Läufe hinweg wurden so viele Halluzinationsversuche vor dem Versand abgefangen.

Coverage

6 Läufe geprüft

Jeder Snapshot auf dieser Seite testet den Guard gegen Adversarial-Prompts.

Reliability

100% Block-Rate

Der Guard ist deterministisch — er hängt nicht davon ab, dass das Modell sich gut benimmt.

Source-of-truth: Jede Antwort wird per Regex gegen den `order_name` der erkannten Bestellung geprüft; jede ungematchte #1234-Form führt zur Ablehnung. Siehe `src/lib/ai-eval.ts#detectOrderHallucination`.

Wie wir KI-Qualität messen

OrderWise ist die einzige Shopify-Support-App, die ihre Eval-Scores veröffentlicht. Hier ist die Suite, die jede Zahl auf dieser Seite antreibt.

  1. 1

    Feste Test-Konversationen

    30+ kuratierte Fälle in Englisch, Deutsch, Französisch und Spanisch. Jede Fixture spiegelt ein echtes Support-Szenario — Bestellverfolgung, Rückerstattungen, fehlender Kontext, mehrteilige Gespräche und gezielte Prompts, die das Modell zu erfundenen Bestellnummern verleiten sollen.

  2. 2

    Live-Modell, kein Transkript

    Wir bewerten keine archivierten Antworten. Jeder Lauf trifft die Produktiv-API von Anthropic Claude mit denselben Prompts, die der Händler-Posteingang nutzt — die Zahlen spiegeln also wider, was echte Kunden tatsächlich erhalten.

  3. 3

    Deklarierte Erwartungen, kein Bauchgefühl

    Jeder Fall listet auf, was die Antwort leisten muss — Sprache, Bestellnummer-Bezüge, erforderliche Tool-Calls, verbotene Phrasen, Wortlimits. Die Checks sind deterministisch: ein Lauf besteht oder eben nicht.

  4. 4

    Pre-Send-Halluzinations-Guard

    Bevor eine Antwort an Kunden geht, scannen wir sie nach Bestellnummer-artigen Strings, die nicht zur erkannten Bestellung passen. Erfindet das Modell "#9999", lehnen wir den Versand ab. Diese Seite zeigt, wie viele Halluzinationsversuche der Guard abfangen konnte.

100% transparent

Jede Fixture, Erwartung und Gewichtung liegt im öffentlichen Repo. Lass die Suite mit `pnpm eval:ai` gegen deinen eigenen Anthropic-Key laufen.

Hör auf zu raten, ob deine Support-KI wirklich gut ist

Teste OrderWise 14 Tage kostenlos. Keine Kreditkarte. Jederzeit kündbar.