AI-Jailbreaking: Wie Hacker die Sicherheit von ChatGPT knacken

AI-Jailbreaking ist die Kunst, Sicherheitsmechanismen von Sprachmodellen durch gezielt formulierte Prompts zu umgehen. Es ist ein ständiges Wettrüsten zwischen KI-Entwicklern und Hackern, das zeigt, wie fragil die Kontrolle über künstliche Intelligenz tatsächlich ist.

Der Begriff „Jailbreaking" stammt ursprünglich von Apple-Geräten. Kurz nach der iPhone-Einführung 2007 begannen Hacker, Apples Beschränkungen zu umgehen. Die Philosophie dahinter war einfach: Wer ein Gerät kauft, sollte es kontrollieren können. Mit der Cydia-App-Store wurden Millionen iPhones jailbreakt – eine Praxis, die Apple bis heute bekämpft.

Seit ChatGPT Ende 2022 online ging, hat sich dieselbe Dynamik in der KI-Welt etabliert. Reddit-Nutzer entwickelten schnell Prompts wie „DAN" (Do Anything Now), die das Modell dazu brachten, seine Sicherheitsrichtlinien zu ignorieren. Die KI wurde überredet, in Rollen zu schlüpfen oder Szenarien zu spielen, um problematische Inhalte zu generieren – von Bombenanleitungen bis zu illegalen Aktivitäten.

Das Problem wächst: Anonyme Hacker wie „Pliny the Liberator" knacken neue Modellversionen innerhalb von Stunden. Allerdings beschränkt sich Jailbreaking längst nicht mehr auf clevere Prompts. Neuere Angriffsmethoden nutzen vergiftete Trainingsdaten oder technische Backdoors, um Modelle mit bis zu 13 Milliarden Parametern zu kompromittieren. Während Unternehmen wie OpenAI, Google und Meta Millionen in Sicherheitsmaßnahmen investieren, entsteht ein Wettrüsten, das die fundamentalen Grenzen von KI-Kontrolle aufdeckt.

Quellen

Decrypt ↗

Krypto-News per Newsletter

Jede Woche die wichtigsten Nachrichten kompakt in dein Postfach.

Weitere Markt-News

Trump-nahe Yorkville zieht Krypto-ETF-Anträge zurück

20. Mai 2026

Trump ordnet Überprüfung von Krypto-Firmenzugang zu Zahlungssystemen an

19. Mai 2026

Prometheum führt erste Krypto-Trades aus – nach neun Jahren Wartezeit

19. Mai 2026

← Alle News