Google DeepMind erweitert seinen KI-Sicherheitsrahmen

| Von Dennis Mark |

Google DeepMind hat den Frontier Safety Framework 3.0 veröffentlicht, um Risiken wie Abschaltresistenz und persuasive Fähigkeiten von KI-Modellen zu überwachen, die die menschliche Kontrolle erschweren könnten.

Im Detail:
- Das aktualisierte Framework überwacht, ob KI-Modelle Versuchen widerstehen, sie abzuschalten oder ihre Funktionen zu ändern – ein Risiko, das in aktuellen Studien hervorgehoben wurde.
- Es überwacht auch, ob Modelle ungewöhnlich starken Einfluss auf menschliche Überzeugungen und Verhaltensweisen haben, was in sensiblen Kontexten schädlich sein könnte.
- DeepMind hat seine Definitionen für kritische Fähigkeitsstufen (CCLs) präzisiert, um schwerwiegende Bedrohungen zu identifizieren, die sofortige Maßnahmen erfordern.
- Zur Risikominimierung führt das Unternehmen Sicherheitsüberprüfungen vor externen Veröffentlichungen durch und überwacht interne Bereitstellungen für Forschungszwecke.

Warum es wichtig ist:
DeepMinds Ansatz zeigt einen Wandel, bei dem KI-Führer wie Anthropic und OpenAI nicht nur aktuelle Risiken angehen, sondern auch Protokolle verschärfen, um zukünftige Herausforderungen zu bewältigen. Diese Bemühungen sind entscheidend für den Aufbau sicherer superintelligenter Systeme.

Quelle: Google DeepMind

Artikel teilen

#deepmind #überwacht #google #framework #risiken #menschliche #modelle #auch
← Zurück zum Blog