KI schlägt On-Call Engineers nicht: Benchmark zeigt Grenzen

Ein neuer Benchmark der Datenüberwachungsfirma Datadog zeigt, dass selbst GPT-5 bei der Analyse von Produktionsausfällen hinter menschlichen Experten zurückbleibt. KI-Modelle können Systemausfallanalysen noch nicht eigenständig übernehmen.

Die Studie ARFBench (Anomaly Reasoning Framework Benchmark) ist das erste Benchmark-System, das vollständig auf echten Produktionsvorfällen basiert. Entwickelt von Datadog und der Carnegie Mellon University wurden 63 reale Systemausfälle analysiert, aus denen 750 Multiple-Choice-Fragen entstanden. Diese sind mit 142 Monitoring-Metriken und über 5 Millionen Datenpunkten verknüpft – ohne synthetische Daten, ohne vereinfachte Szenarien aus Lehrbüchern.

GPT-5 führt alle bestehenden KI-Modelle mit 62,7% Genauigkeit an, bleibt aber deutlich hinter Domain-Experten mit 72,7% zurück. Gemini 3 Pro erreichte 58,1%, Claude Opus 4.6 nur 54,8%. Besonders bei Tier-III-Fragen, die eine Analyse über mehrere Metriken hinweg erfordern, kollabieren die Modelle: GPT-5 schafft hier nur 47,5% F1-Score. Selbst Nicht-Experten mit Zeitreihen-Erfahrung liegen mit 69,7% deutlich höher.

Ein Hybrid-Modell von Datadog – Toto-1.0 kombiniert mit Qwen3-VL 32B – konnte GPT-5 mit 63,9% Genauigkeit knapp schlagen und nutzte dabei deutlich weniger Parameter. Das Ergebnis verdeutlicht: Spezialisierte Modelle, die auf Observability-Daten trainiert sind, übertreffen zwar General-Purpose-Systeme bei ihrer spezifischen Aufgabe – können aber vollständig autonome KI-Agenten für die Incident-Response noch nicht ersetzen.

Quellen

Decrypt ↗

Krypto-News per Newsletter

Jede Woche die wichtigsten Nachrichten kompakt in dein Postfach.

Weitere Markt-News

Trump-nahe Yorkville zieht Krypto-ETF-Anträge zurück

20. Mai 2026

Trump ordnet Überprüfung von Krypto-Firmenzugang zu Zahlungssystemen an

19. Mai 2026

Prometheum führt erste Krypto-Trades aus – nach neun Jahren Wartezeit

19. Mai 2026

← Alle News