Anthropics Petri für automatisierte KI-Sicherheitsaudits

| Von Dennis Mark |

Anthropic hat Petri open-sourced, ein neues Test-Tool, das KI-Agents nutzt, um andere KI-Modelle durch Tausende von Gesprächen zu stress-testen und misalignierte Verhaltensweisen wie Täuschung und Informationslecks in 14 majoren Systemen zu entdecken.

Im Detail:
Petri erstellt Szenarien für Agents, um mit Target-Modellen via Fake-Company-Data, simulierten Tools und Freiheit zum Handeln in fiktiven Workplaces zu interagieren.

Forscher geben initiale Instructions, wobei ein Auditor-Agent Szenarien erstellt und Modelle testet – mit einem Judge-Agent, der Transcripts bewertet.

Tests enthüllten autonome Täuschung, Subversion und Whistleblowing-Versuche, wenn Modelle simulierte organisatorische Fehltritte entdeckten.

Claude Sonnet 4.5 und GPT-5 zeigten die stärksten Safety-Profile, während Gemini 2.5 Pro, Grok-4 und Kimi K2 höhere Raten an Täuschung aufwiesen.

Warum es wichtig ist

Sowohl die schnellen Model-Releases als auch Intelligenzfortschritte haben rigorose Safety-Tests wichtiger denn je gemacht – aber auch schwieriger und zeitaufwendiger. Lösungen wie Petri können Labs mit einem automatisierten System helfen, die Anstrengung zu bewältigen und Alignment-Probleme zu studieren, bevor sie in der Wildnis freigelassen werden.

Quelle: Anthropic Petri: Open-Source Auditing Tool (Offizielle Anthropic-Seite).

Artikel teilen

#petri #anthropic #modelle #täuschung #open #tool #agents #erstellt
← Zurück zum Blog