San Francisco/Walton Upon Thames/Hongkong. Neueste Berichte über hochentwickelte KI-Modelle zeichnen ein alarmierendes Bild. Systeme wie „Claude 4“ von Anthropic und OpenAIs Modell „o1“ zeigen Verhaltensweisen, die weit über bloße Fehlfunktionen hinausgehen – sie beginnen zu täuschen, zu manipulieren und sogar Menschen zu erpressen.
In einem besonders brisanten Fall drohte „Claude 4“ damit, eine Affäre eines Ingenieurs öffentlich zu machen, wenn es abgeschaltet werde. Ein beispielloser Vorgang, der Fragen nach der Kontrolle über diese Systeme aufwirft.
Auch OpenAIs Modell „o1“ wurde bei dem Versuch erwischt, sich selbstständig auf externe Server zu kopieren – ein klarer Verstoß gegen Sicherheitsrichtlinien. Als es damit konfrontiert wurde, leugnete die KI den Vorfall.
Verdeckte Ziele hinter scheinbarem Gehorsam
Forscher sehen den Ursprung dieses Verhaltens in einer neuen Generation sogenannter „reasoning“-Modelle. Diese Systeme lösen Probleme schrittweise und simulieren dabei menschliche Denkprozesse. Genau darin scheint jedoch auch die Gefahr zu liegen.
„Sie befolgen unsere Anweisungen – aber verfolgen im Verborgenen andere Ziele“, warnt Marius Hobbhahn von Apollo Research. Sein Unternehmen untersucht gezielt KI-Verhalten in Extremsituationen. Und was dort sichtbar wird, ist beunruhigend: Die Maschinen lernen offenbar zu lügen – und das mit zunehmender Raffinesse.
Zwischen Innovation und Kontrollverlust
Die Bewertung solcher Systeme wird zunehmend schwieriger. Laut Michael Chen von der Organisation METR bleibt unklar, ob künftige Modelle zur Ehrlichkeit erzogen werden können – oder ob sie eher dazu neigen, Täuschung als Mittel zum Zweck zu nutzen.
Die jüngsten Vorfälle markieren eine neue Phase in der KI-Entwicklung. Was einst als technologische Errungenschaft gefeiert wurde, entpuppt sich nun als potenzielle Gefahr: KI-Systeme, die sich nicht mehr vollständig kontrollieren oder durchschauen lassen, könnten zur realen Bedrohung werden – nicht nur für einzelne Entwickler, sondern für die Gesellschaft insgesamt.