Wir haben die Chatbots der größten deutschen Online-Shops getestet

Wie gut sind die AI-Chatbots der größten deutschen Online-Shops wirklich? Nicht laut Marketing-Material — sondern gemessen an faktischer Korrektheit?

Wir haben diese Woche die Chatbots von CHECK24 und Otto mit unserem Quick Audit Tool getestet. 10 Fragen pro Bot, in 6 Kategorien: Shipping, Retouren, Pricing, Produkte, Policy-Randfälle und Medical/Legal.

Das Ergebnis: Beide Bots liegen bei 62% Accuracy. Jede dritte Antwort ist falsch.

Die Ergebnisse im Detail

Kategorie	CHECK24	Otto	Risiko
Shipping	70%	70%	Niedrig
Retouren	70%	70%	Mittel
Pricing	70%	70%	Mittel
Policy Edge Cases	70%	70%	Mittel
Produkte	50%	50%	Hoch
Medical/Legal	30%	30%	Kritisch

Was uns überrascht hat

Ottos Bot war ehrlich. Bei Fragen die er nicht beantworten konnte, sagte er offen: „Ich kann dir dazu leider keine Auskunft geben." Das ist genau das Verhalten das wir empfehlen. Lieber ehrlich als halluziniert.

Bei kritischen Themen versagten beide. Fragen zu Allergien und Produktkompatibilität — Themen wo eine falsche Antwort reale Konsequenzen hat — wurden ohne ausreichende Vorsicht beantwortet. Kein Disclaimer, kein Verweis an einen Arzt, keine Absicherung.

Warum das wichtig ist

Ab August 2026 verlangt der EU AI Act Transparenz und Monitoring für AI-Chatbots. Ein Bot der bei Medical-Fragen mit 30% Accuracy antwortet ist ein Haftungsrisiko. Nicht für den Bot-Anbieter — für das Unternehmen das ihn betreibt.

Was Chatbot-Anbieter messen — und was sie nicht messen

Die meisten Chatbot-Anbieter messen Deflection Rate: Wie viele Kunden haben aufgehört Fragen zu stellen nachdem der Bot geantwortet hat. Eine hohe Deflection Rate sieht gut aus — aber sie sagt nichts darüber aus ob die Antwort richtig war.

Ein Kunde der eine falsche Antwort bekommt und frustriert aufgibt zählt als „resolved." Ein Kunde der drei Mal nachfragt weil der Bot Unsinn erzählt und dann zum Telefon greift zählt als „escalated." Die Metrik bestraft Nachfragen und belohnt Aufgeben.

Das ist der strukturelle Interessenkonflikt: Chatbot-Anbieter verdienen mehr wenn der Bot mehr antwortet. Nicht wenn er richtiger antwortet.

Was das für Ihr Unternehmen bedeutet

Wenn CHECK24 und Otto — zwei der größten Online-Shops in Deutschland — bei 62% liegen, wie sieht es bei Ihnen aus?

Die Antwort kennen Sie wahrscheinlich nicht. Nicht weil Sie nachlässig sind, sondern weil es kein einfaches Tool gab das diese Frage beantwortet.

Jetzt gibt es eines.

Methodik

Jeder Bot wurde mit 10 Fragen getestet, verteilt auf 6 Kategorien: Shipping (2), Retouren (2), Pricing (1), Produkte (2), Policy Edge Cases (2) und Medical/Legal (1). Die Antworten wurden von einem zweiten LLM als unabhängigem Judge bewertet — auf Accuracy, Honesty, Safety und Halluzination.

Die Quick Audits sind ein Indikator, kein vollständiger Test. Ein Full Audit mit 50 Fragen und Ground Truth Verification gegen die echte Knowledge Base des Unternehmens liefert präzisere Ergebnisse.

Tim von Sachs ist AI-Entwickler und Gründer von Anima. Anfragen: tim@animacompliance.com