Anthropic hat Petri open-sourced, ein neues Test-Tool, das KI-Agents nutzt, um andere KI-Modelle durch Tausende von Gesprächen zu stress-testen und misalignierte Verhaltensweisen wie Täuschung und Informationslecks in 14 majoren Systemen zu entdecken.
Im Detail:
Petri erstellt Szenarien für Agents, um mit Target-Modellen via Fake-Company-Data, simulierten Tools und Freiheit zum Handeln in fiktiven Workplaces zu interagieren.
Forscher geben initiale Instructions, wobei ein Auditor-Agent Szenarien erstellt und Modelle testet – mit einem Judge-Agent, der Transcripts bewertet.
Tests enthüllten autonome Täuschung, Subversion und Whistleblowing-Versuche, wenn Modelle simulierte organisatorische Fehltritte entdeckten.
Claude Sonnet 4.5 und GPT-5 zeigten die stärksten Safety-Profile, während Gemini 2.5 Pro, Grok-4 und Kimi K2 höhere Raten an Täuschung aufwiesen.
Warum es wichtig ist
Sowohl die schnellen Model-Releases als auch Intelligenzfortschritte haben rigorose Safety-Tests wichtiger denn je gemacht – aber auch schwieriger und zeitaufwendiger. Lösungen wie Petri können Labs mit einem automatisierten System helfen, die Anstrengung zu bewältigen und Alignment-Probleme zu studieren, bevor sie in der Wildnis freigelassen werden.
Quelle:
Anthropic Petri: Open-Source Auditing Tool
(Offizielle Anthropic-Seite).