OpenAI hat GDPval eingeführt, ein neuer Benchmark, der misst, ob KI-Modelle die Arbeitsqualität von Profis in 44 Berufen erreichen können – Top-Modelle wie GPT-5, Claude Opus 4.1, Gemini 2.5 und Grok 4 werden gegen Branchenexperten getestet.
Im Detail:
GDPval bewertete 1.320 Aufgaben, die von Fachleuten mit durchschnittlich 14 Jahren Erfahrung in neun Wirtschaftssektoren wie Gesundheitswesen und Finanzen erstellt wurden.
Opus 4.1 erzielte die höchsten Punktzahlen mit einer Gewinnrate von 47,6 % und glänzte bei visuellen Präsentationsaufgaben, während GPT-5 bei technischer Genauigkeit führend war.
OpenAI stellte fest, dass die Leistung von GPT-4o zu GPT-5 in 15 Monaten verdreifacht wurde, was eine schnelle Verbesserung der Arbeitsfähigkeiten zeigt.
Warum es wichtig ist
Trotz Schlagzeilen über sofortigen Arbeitskräfteersatz zeigt GDPval, dass selbst die besten Modelle nur in bestimmten Aufgaben mit Profis gleichziehen. Doch wenn dieser Benchmark wie andere in der KI-Welt ist, könnten fortschrittlichere Modelle in wenigen Monaten einen signifikanten Sprung machen.
Quelle:
OpenAI Blog