Ein Store-Betreiber hat mir letzte Woche einen Screenshot seines Helpdesk geschickt: 312 offene Tickets, davon 240 mit Betreffzeilen wie "Wo ist meine Bestellung?", "Sendungsverfolgung?" oder "Wann kommt das an?". Er hat das Wochenende damit verbracht, dieselbe dreizeilige Antwort 240 Mal rauszuschicken. Sein Satz dazu: "Ich mache einen Online-Shop, keinen Copy-Paste-Job."

Genau hier setzt die Frage an, wenn du deinen Shopify Kundenservice automatisieren willst. Nicht "ersetzt mich ein Bot komplett?", sondern: welcher konkrete Anteil deiner Tickets ist Routine, die keine menschliche Entscheidung braucht — und wo fängt der Teil an, bei dem Automatisierung aktiv Schaden anrichtet? Die Antwort ist erstaunlich klar abgrenzbar, wenn man sich echte Ticket-Verteilungen ansieht statt Marketing-Versprechen.

Wovon wir reden, wenn wir "automatisieren" sagen

Automatisierung im Support heißt nicht "KI antwortet auf alles". Es heißt: Du teilst dein Ticket-Volumen in drei Eimer und behandelst jeden anders.

Aus den Conversations, die wir bei OrderWise mitlaufen sehen, ist die Verteilung über die meisten DTC-Stores hinweg ziemlich stabil:

~78% Versandstatus — "Wo ist meine Bestellung?", Tracking-Link, voraussichtliches Lieferdatum. Diese Tickets enthalten keine neue Information außer der Bestellnummer. Vollautomatisch lösbar.
~14% Rückerstattung / Stornierung — der Mensch muss die Geld-Entscheidung treffen, aber die Conversation lässt sich vorstrukturieren.
~8% echte Einzelfälle — Größenprobleme, Reklamationen mit Foto, Sonderwünsche, Adresskorrekturen nach Versand. Hier gehört ein Mensch ans Ticket.

Die ganze Diskussion über Support-Automatisierung dreht sich eigentlich nur um diese Aufteilung. Wer dir verspricht, dass KI 95% deiner Tickets autonom erledigt, hat entweder die 14%- und 8%-Eimer nie ehrlich angeschaut — oder er rechnet Pre-Sales-Fragen rein, die eine andere Struktur haben.

Der 78%-Eimer: Versandstatus, vollautomatisch

Das ist der Teil, der sich lohnt, und der Teil, an dem die meisten Tools trotzdem scheitern. Eine WISMO-Frage (Where Is My Order) ist deshalb automatisierbar, weil die Antwort komplett in deinem Shopify-Admin liegt: Bestellung existiert, ist fulfilled, hier ist der Carrier, hier die Sendungsnummer, hier der Tracking-Link, geschätzte Ankunft Donnerstag.

Damit eine Automatisierung das tatsächlich auflöst — und nicht nur so tut — braucht sie vier Dinge:

Kundenidentität ohne Rückfrage. Schreibt der Kunde "wo ist #1047?", muss das System die Bestellnummer aus dem Freitext ziehen, statt zurückzufragen "nennen Sie mir bitte Ihre Bestellnummer" — die er gerade genannt hat. Etwa ein Drittel der Nachrichten enthält die Nummer in einem Format, das niemand so vorgegeben hat ("1047", "ORDER-1047", "Bestellung 1047").
Echtzeit-Daten, kein Tagescache. Tracking-Status ändert sich stündlich. Ein täglicher Sync erzählt dem Kunden, das Paket sei in Frankfurt, obwohl es längst zugestellt ist. Der Lookup muss zur Anfragezeit auf die Shopify Admin GraphQL API gehen.
Eine brauchbare Antwort. "Ihre Bestellung ist unterwegs" reicht nicht. Carrier, Sendungsnummer, letzter bekannter Status, klickbarer Link — ungefähr fünf Datenpunkte.
Mehrsprachigkeit out of the box, wenn du über die DACH-Grenze hinaus verkaufst. Ein deutscher Kunde fragt auf Deutsch, der österreichische auch, der niederländische auf Niederländisch.

Fehlt einer dieser Punkte, bekommst du den Bot, der nach der Bestellnummer fragt, die er schon hat. Das ist die häufigste Fehlversion im App Store: WISMO-Intent erkannt, aber kein echter Order-Kontext dahinter, also Fallback auf einen generischen FAQ-Block oder Weiterleitung an die E-Mail — wo du es am Ende doch manuell beantwortest, nur langsamer.

Der 14%-Eimer: Rückerstattungen vorstrukturieren, nicht entscheiden

Hier wird es interessant, weil die naheliegende Lösung die falsche ist. Ich habe in einem internen Build mal Rückerstattungen vollautomatisch laufen lassen. Ergebnis: Die KI hat den Intent korrekt erkannt, die Bestellung korrekt rausgesucht — und dann in etwa 40% der Fälle eine Erstattungsentscheidung getroffen, mit der der Händler nicht einverstanden war.

Geld-Entscheidungen gehören zum Menschen. Das ist keine UX-Vorliebe, das ist Geschäftslogik. Was der Händler aber nicht will, ist eine halbe Absatz-Mail von Hand auseinandernehmen, um Bestellnummer, Grund und gewünschte Aktion zu extrahieren.

Die Automatisierung macht hier also etwas anderes: Sie nimmt die Conversation, stellt die fehlenden strukturierten Fragen (Grund, Erstattung oder Ersatz, Foto falls relevant) und legt eine einzige Karte in den Posteingang — mit Bestellkontext inline, Conversation-Zusammenfassung, vorgeschlagener Aktion und einem "Freigeben"- oder "Ablehnen"-Button. Aus 5–10 Minuten Handarbeit werden 10–15 Sekunden Entscheidung. Die Entscheidung selbst trifft weiterhin der Mensch.

Was du NICHT automatisieren solltest

Den 8%-Eimer übernimmt kein vernünftiges Setup autonom. Größenreklamation mit angehängtem Foto, Gravur-Sonderwunsch, Adressänderung nachdem das Paket raus ist, eine Beschwerde, die bei falscher Antwort eskaliert — diese Tickets profitieren davon, dass ein Mensch sie liest und eine durchdachte Antwort schreibt.

Die Rolle der KI hier ist Einsortieren, nicht Antworten: erkennen, dass das Ticket außerhalb der Routine liegt, es klassifizieren (Beschwerde, Sonderwunsch, Versand-Korrektur) und mit passender Priorität im Posteingang sichtbar machen.

Und es gibt eine zweite Kategorie, bei der ich entschieden bin: sensible Aktionen brauchen menschliche Freigabe, immer. Konkret heißt das — keine automatische Rückerstattung ohne Klick, keine automatische Adressänderung an einer laufenden Bestellung, keine Stornierung ohne Bestätigung. Sobald eine Aktion Geld bewegt oder einen Datensatz irreversibel ändert, ist der Default "vorschlagen und warten", nicht "ausführen". Tools, die hier den bequemen Weg gehen, verkaufen dir ein Risiko als Feature.

Wie du das praktisch aufsetzt

Wenn du heute anfängst, würde ich diese Reihenfolge nehmen:

Erst FAQ und Versand-Policy sauber pflegen. Lieferzeiten pro Region, Rückgabefrist, was bei Verlust passiert. Die KI ist nur so gut wie die Quellen, auf die sie zugreift. Schwammige Versand-Policy heißt schwammige Antworten.
Den Order-Lookup live verdrahten — Shopify Admin API als Datenquelle, nicht ein FAQ-Dokument, das "3–5 Tage" sagt. Das ist der Schritt, der den 78%-Eimer kippt.
Identität am Widget früh binden. Eingeloggte Kunden sind eindeutig; für anonyme Sessions die E-Mail abfragen, bevor es losgeht. Das allein hat bei uns die Auto-Lösungsrate um rund 12 Prozentpunkte gehoben.
Eskalations-Regeln definieren, bevor du live gehst: Welche Intents gehen direkt an den Menschen? Welche Wörter triggern eine Eskalation ("Anwalt", "Widerruf", "kaputt")? Lieber zu früh eskalieren als eine wütende Mail falsch beantworten.
Mitlesen in den ersten zwei Wochen. Jede Conversation durchgehen. Du findest in den ersten 50 Tickets mehr über deine echten Edge-Cases heraus als in jedem Onboarding-Call.

Und ein DACH-spezifischer Punkt, den man leicht übersieht: Sobald Kundendaten durch das Tool laufen, brauchst du EU-Hosting, einen AV-Vertrag und eine Löschfrist. Das ist kein Nice-to-have, das ist Voraussetzung. Mehr dazu in unserem Beitrag über DSGVO-konformen AI-Support.

Die ehrlichen Grenzen

Drei Dinge, über die ich nicht hinwegrede:

Die 78% sind ein Durchschnitt. Mode und Schuhe liegen höher im 8%-Eimer, weil Größenprobleme häufig sind. Verbrauchsgüter und digitale Produkte liegen höher bei WISMO. Rechne mit deiner eigenen Verteilung, nicht meiner.

Pre-Sales ist ein anderes Tier. "Versendet ihr nach Österreich?", "passt das zu meinem Hauttyp?" — diese Fragen brauchen Produktwissen, das die KI nur hat, wenn dein FAQ es hergibt. Rechnest du Pre-Sales mit ein, fällt die Auto-Lösungsrate Richtung 65%.

KI-Antworten sind nicht gratis fehlerfrei. Deshalb veröffentlichen wir unsere öffentlichen Eval-Scores — wie oft die Antworten korrekt sind, wie oft eskaliert wird, wo es hakt. Wenn ein Anbieter solche Zahlen nicht zeigt, frag dich, warum.

Was Automatisierung dir realistisch bringt: Der Store mit 20 Tickets pro Woche spürt es als "ein paar Stunden gespart". Der Store mit 200 Tickets pro Woche spürt es als "eine halbe Support-Stelle nicht eingestellt". Beides ist es wert — aber aus unterschiedlichen Gründen.

Wenn du gerade Tools vergleichst, schau weniger auf die Feature-Liste und mehr darauf, ob der Order-Lookup live ist und ob sensible Aktionen wirklich eine Freigabe brauchen. Wir haben das im Detail in unserem Vergleich mit Gorgias aufgeschrieben. Und wenn du einfach mit dem 78%-Eimer anfangen willst, ohne dich an einen Jahresvertrag zu binden: Der kostenlose Plan deckt 50 Conversations im Monat ab, die Preise skalieren danach pro Conversation, nicht pro Sitzplatz.

Mein Vorschlag: Geh dein Helpdesk durch und zähl die letzten 50 Tickets durch — wie viele waren reine Versandfragen? Diese Zahl sagt dir mehr über dein Automatisierungspotenzial als jede Demo.

Shopify Kundenservice automatisieren: was wirklich geht und was nicht