KI verliert gegen erfahrene Ingenieure bei Systemausfällen

Ein Benchmark der Plattform Datadog zeigt: Selbst GPT-5 kann Produktionsstörungen nicht so zuverlässig analysieren wie menschliche Fachleute. Die beste KI erreichte 62,7% Genauigkeit, während Experten 72,7% schafften.

ARFBench ist der erste Benchmark, der auf echten Produktionsvorfällen basiert. Das Projekt von Datadog und der Carnegie Mellon University analysierte 63 reale Systemausfälle anhand von 750 Multiple-Choice-Fragen, die 142 Monitoringmetriken und über 5 Millionen Datenpunkte umfassen. Jede Frage wurde manuell verifiziert – es gab keine synthetischen Daten oder Lehrbuchszenarien.

Die Tests zeigen ein klares Bild: GPT-5 führt alle KI-Modelle mit 62,7% Genauigkeit an, bleibt aber deutlich hinter Domänenexperten mit 72,7% zurück. Gemini 3 Pro erzielte 58,1%, Claude-Modelle zwischen 47,2% und 54,8%. Besonders bei komplexen Fragen, die übergreifende Analysen erfordern, versagen die KI-Systeme: Bei Tier-III-Fragen (Cross-Metric-Reasoning) erreichte GPT-5 nur 47,5% F1-Score.

Interessanterweise schnitt ein spezialisiertes Hybridmodell am besten ab: Datadogs interner „Toto"-Forecaster kombiniert mit Qwen3-VL 32B erreichte 63,9% Genauigkeit. Dies zeigt, dass domänenspezifische KI-Modelle generalistischen Systemen überlegen sind – doch auch diese schlagen menschliche Experten nicht.

Quellen

Decrypt ↗

Krypto-News per Newsletter

Jede Woche die wichtigsten Nachrichten kompakt in dein Postfach.

Weitere Markt-News

Trump-nahe Yorkville zieht Krypto-ETF-Anträge zurück

20. Mai 2026

Trump ordnet Überprüfung von Krypto-Firmenzugang zu Zahlungssystemen an

19. Mai 2026

Prometheum führt erste Krypto-Trades aus – nach neun Jahren Wartezeit

19. Mai 2026

← Alle News