Neuer Benchmark testet KI bei Freelance-Automatisierung

| Von Dennis Mark | AI & Technology Blog

Die Diskussion über KI und Arbeitsplätze bekommt neue Nahrung: Scale AI und das Center for AI Safety haben den „Remote Labor Index“ veröffentlicht – einen Benchmark, der KI-Modelle an echten Freelance-Projekten misst. Das Ergebnis ist ernüchternd.

Selbst die besten Systeme erreichen weniger als 3 % der Aufgaben auf professionellem Niveau. Fast 97 % der KI-Ausgaben sind unbrauchbar. Ein Schlag ins Gesicht aller, die von vollständiger Automatisierung träumen.

Der Test basiert auf 240 abgeschlossenen Aufträgen von verifizierten Upwork-Profis – aus 23 verschiedenen Kategorien, inklusive aller originalen Liefergegenstände wie Dateien, Berichte, Designs.

Sechs führende KI-Systeme wurden denselben Aufgaben unterzogen. Ihre Ergebnisse wurden direkt mit den Upwork-Standards verglichen – nach Qualität, Vollständigkeit und Funktionalität.

An der Spitze: Manus mit 2,5 %. Dahinter Grok 4 und Claude Sonnet 4.5 mit je 2,1 %. Der Rest liegt darunter. Ein klares Signal: Wir sind weit entfernt von zuverlässiger Automatisierung.

Typische Fehler: unvollständige Deliverables, defekte Dateien, schlechte Qualität, fehlende Formatierung. KI versagt besonders bei komplexen, mehrstufigen Projekten.

Erfolge gibt es nur bei engen, klar definierten Aufgaben: Logo-Erstellung, einfache Audio-Mischung, Diagramme. Alles, was Kreativität, Kontext oder Iteration erfordert, scheitert.

Der Benchmark deckt 23 Kategorien ab – von Webentwicklung über Grafikdesign bis hin zu Datenanalyse. Überall dasselbe Bild: KI kann Teilaufgaben, aber keine Projekte koordinieren.

Verglichen mit akademischen Benchmarks wie MMLU oder HumanEval ist der Remote Labor Index praxisnah. Keine synthetischen Tests, sondern echte Kundenaufträge mit realen Anforderungen.

Technisch gesehen nutzt der Test automatisierte Bewertungsskripte, menschliche Reviewer und Metriken wie Datei-Integrität, Funktionalität und Kundenzufriedenheit. Ein hybrider Ansatz.

Die Ergebnisse zeigen eine klare Lücke: Während Reasoning-Fähigkeiten steigen, bleibt die Fähigkeit zur zuverlässigen Ausführung komplexer Workflows aus. Agenten-Systeme sind noch nicht reif.

Upwork selbst profitiert indirekt: Die Plattform bleibt relevant, solange KI nicht liefern kann. Freelancer atmen auf – vorerst. Aber die Entwicklung geht weiter.

Scale AI positioniert sich mit diesem Benchmark als führender Akteur in der KI-Evaluierung. Das Unternehmen will Standards setzen – und zeigt gleichzeitig die Grenzen aktueller Modelle auf.

Die Methodik ist transparent: Alle Aufgaben, Bewertungskriterien und Rohdaten sind öffentlich einsehbar. Ein Schritt in Richtung reproduzierbarer KI-Forschung.

Kritik gibt es dennoch: Manche werfen vor, der Test sei zu streng. Andere sagen, er sei genau richtig – schließlich zahlen Kunden für Ergebnisse, nicht für „fast“.

Für die KI-Entwicklung bedeutet das: Fokus auf Zuverlässigkeit, Fehlerkorrektur, Langzeit-Memory und bessere Tool-Integration. Reasoning allein reicht nicht.

Unternehmen, die auf KI-Automatisierung setzen, müssen umplanen. Hybride Modelle – Mensch plus KI – bleiben die Realität. Vollautomatisierung ist noch Jahre entfernt.

Chancen: KI kann als Assistent glänzen – Recherche, Entwürfe, Teilbearbeitung. Risiken: Überbewertung, fehlgeschlagene Projekte, Frust bei Kunden.

Der Remote Labor Index ist ein Weckruf. Er quantifiziert, was viele ahnten: Der Hype übersteigt die Realität. Ein notwendiger Realitätscheck in einer überhitzten Branche.

Zusammenfassend: KI ist mächtig – aber noch lange nicht bereit, Freelancer zu ersetzen. Der Mensch bleibt im Zentrum. Zumindest für die nächsten Jahre.



Quelle: The Rundown

Weitere KI News aus KI-Entwicklung & Forschung:
- Ex-xAI-Forscher sammelt 1 Milliarde Dollar für menschzentriertes KI-Labor
- Claude zeigt erste Anzeichen von Selbstwahrnehmung
- IBM veröffentlicht Granite 4.0 Nano für On-Device-KI-Anwendungen

Artikel teilen

#KI #Benchmark #Freelance #Automatisierung #ScaleAI #Upwork #AIForschung
← Zurück zum Blog