Ein neuer Benchmark der Datenüberwachungsfirma Datadog zeigt, dass selbst GPT-5 bei der Analyse von Produktionsausfällen hinter menschlichen Experten zurückbleibt. KI-Modelle können Systemausfallanalysen noch nicht eigenständig übernehmen.
Die Studie ARFBench (Anomaly Reasoning Framework Benchmark) ist das erste Benchmark-System, das vollständig auf echten Produktionsvorfällen basiert. Entwickelt von Datadog und der Carnegie Mellon University wurden 63 reale Systemausfälle analysiert, aus denen 750 Multiple-Choice-Fragen entstanden. Diese sind mit 142 Monitoring-Metriken und über 5 Millionen Datenpunkten verknüpft – ohne synthetische Daten, ohne vereinfachte Szenarien aus Lehrbüchern.
GPT-5 führt alle bestehenden KI-Modelle mit 62,7% Genauigkeit an, bleibt aber deutlich hinter Domain-Experten mit 72,7% zurück. Gemini 3 Pro erreichte 58,1%, Claude Opus 4.6 nur 54,8%. Besonders bei Tier-III-Fragen, die eine Analyse über mehrere Metriken hinweg erfordern, kollabieren die Modelle: GPT-5 schafft hier nur 47,5% F1-Score. Selbst Nicht-Experten mit Zeitreihen-Erfahrung liegen mit 69,7% deutlich höher.
Ein Hybrid-Modell von Datadog – Toto-1.0 kombiniert mit Qwen3-VL 32B – konnte GPT-5 mit 63,9% Genauigkeit knapp schlagen und nutzte dabei deutlich weniger Parameter. Das Ergebnis verdeutlicht: Spezialisierte Modelle, die auf Observability-Daten trainiert sind, übertreffen zwar General-Purpose-Systeme bei ihrer spezifischen Aufgabe – können aber vollständig autonome KI-Agenten für die Incident-Response noch nicht ersetzen.