OpenAI hat eine neue Studie veröffentlicht, die erklärt, warum KI-Systeme halluzinieren. Standard-Trainingsmethoden belohnen selbstsicheres Raten statt Unsicherheit zuzugeben, was einen Weg zur Lösung von Qualitätsproblemen bei KI eröffnen könnte.
Im Detail:
- Forscher fanden heraus, dass Modelle Fakten erfinden, weil Bewertungssysteme volle Punkte für richtige Vermutungen vergeben, aber null Punkte für „Ich weiß nicht“.
- Die Studie zeigt, dass dies einen Konflikt erzeugt: Modelle, die auf maximale Genauigkeit trainiert werden, lernen, immer zu raten, selbst wenn sie völlig unsicher sind.
- OpenAI testete dies, indem Modelle nach bestimmten Geburtstagen und Dissertationstiteln gefragt wurden, wobei sie jedes Mal selbstsicher falsche Antworten lieferten.
- Die Forscher schlagen vor, Bewertungsmetriken so umzugestalten, dass selbstsichere Fehler stärker bestraft werden als Unsicherheitsäußerungen.
Warum es wichtig ist:
Diese Forschung macht das Halluzinationsproblem zu einem besser lösbaren Trainingsproblem. Wenn KI-Labore Ehrlichkeit über Glückstreffer belohnen, könnten Modelle entstehen, die ihre Grenzen kennen – was bei kritischen Aufgaben zuverlässiger ist.
Quelle:
OpenAI Research