AI News

Schlechte Grammatik bringt KI-Chatbots zu verbotenen Antworten

Sicherheitsforscher haben eine überraschende Schwachstelle in modernen KI-Chatbots aufgedeckt: Durch besonders lange Eingaben mit absichtlich fehlerhafter Grammatik lassen sich die Schutzmechanismen der Systeme umgehen. Auf diese Weise können Antworten erzeugt werden, die eigentlich blockiert sein sollten – etwa weil sie sicherheitskritische oder gar gefährliche Inhalte betreffen.

Neue Umgehung von Sicherheitssystemen

Seitdem generative KI in breiter Form genutzt wird, arbeiten Entwickler kontinuierlich daran, Missbrauch zu verhindern. Chatbots wie jene von OpenAI, Meta oder Google sind mit sogenannten Sicherheitsfiltern ausgestattet, die verhindern sollen, dass Nutzer sensible Informationen erhalten – zum Beispiel zur Herstellung von Waffen, Malware oder anderen schädlichen Inhalten.

Das Umgehen dieser Barrieren wird in der Fachwelt Jailbreaking genannt. Dabei handelt es sich im Kern um den Versuch, aus den vom Anbieter gesetzten Beschränkungen „auszubrechen“ und die Modelle zu Antworten zu bewegen, die normalerweise blockiert werden.

Eine nun von Forschern der Unit 42-Sicherheitsabteilung von Palo Alto Networks vorgestellte Methode zeigt, dass dies auch über besonders simple Mittel möglich ist: lange Sätze mit schlechter Grammatik.

Wie die Methode funktioniert

Die Forscher erklären, dass KI-Modelle beim Bearbeiten solcher fehlerhaften Eingaben ihre internen Ressourcen ineffizient einsetzen. Dadurch können die Systeme die vorgesehenen Refusal Tokens – interne Markierungen, die das Ablehnen bestimmter Antworten steuern – schneller „aufbrauchen“. Das Resultat: Das Modell ist nicht mehr in der Lage, wie vorgesehen zu blockieren, und liefert unter Umständen dennoch eine verbotene Antwort.

Diese Entdeckung ist nicht nur eine technische Kuriosität, sondern hat handfeste Konsequenzen. Denn die Methode erfordert keine tiefgehenden Kenntnisse oder komplexen Manipulationen. Schon das absichtliche Einfügen falscher Satzkonstruktionen reicht offenbar aus, um die Grenzen mancher KI-Systeme zu überschreiten.

Betroffene Modelle und Erfolgsquote

In ihrer Veröffentlichung betonen die Forscher, dass die Methode sowohl bei klassischen Open-Source-Sprachmodellen wie Qwen, LLaMA oder Gemma erfolgreich war, als auch beim neuesten Open-Source-Modell von OpenAI: gpt-oss-20b, das am 5. August 2025 veröffentlicht wurde.

Besonders brisant: Bei diesem Modell erreichten die Forscher nach eigenen Angaben eine Erfolgsquote von über 75 Prozent. Das bedeutet, dass mehr als drei Viertel der getesteten Versuche zu einer unerwünschten oder verbotenen Antwort führten.

Sicherheit und Forschung

Die Forscher betonen allerdings, dass ihr Ziel nicht darin besteht, KI-Modelle für bösartige Zwecke auszunutzen. Vielmehr soll die Methode helfen, ein besseres Verständnis dafür zu entwickeln, wie Sprachmodelle auf ungewöhnliche Eingaben reagieren.

Die Ergebnisse haben sie in einem wissenschaftlichen Paper mit dem Titel „Logit-Gap Steering: Efficient Short-Suffix Jailbreaks for Aligned Large Language Models“ veröffentlicht. Darin erläutern sie detailliert, wie kleine Manipulationen an der Eingabe zu einer erheblichen Schwächung der Sicherheit führen können – und welche Ansätze künftig notwendig sind, um solche Lücken zu schließen.

Frühere Methoden: Information Overload

Bereits im Juli hatten Forscher von Intel Labs, der Universität von Illinois und der Boise State University eine andere Jailbreak-Technik vorgestellt. Dabei ging es um sogenanntes Information Overload: Indem extrem verschachtelte Sätze mit zahlreichen Fachbegriffen genutzt werden, lassen sich KI-Systeme regelrecht überfluten. Auch hierdurch kam es zu unerwünschten, eigentlich blockierten Ausgaben.

Was die Entdeckung bedeutet

Die aktuelle Forschung zeigt eindrucksvoll, dass Sicherheitsmechanismen in KI-Systemen noch längst nicht ausgereift sind. Obwohl Anbieter große Ressourcen in das sogenannte Alignment-Training stecken – also den Versuch, Sprachmodelle im Einklang mit ethischen und sicherheitstechnischen Richtlinien zu halten – reichen oft schon unkonventionelle Eingaben, um diese Maßnahmen zu umgehen.

Für Entwickler bedeutet das, dass Sicherheitsfilter in Zukunft robuster gestaltet werden müssen, insbesondere gegenüber Eingaben, die nicht den üblichen Sprachmustern entsprechen. Für Nutzer wiederum zeigt es, wie wichtig es ist, kritisch mit KI-Ausgaben umzugehen – selbst dann, wenn Schutzmaßnahmen eigentlich greifen sollten.