Studie: KI-Benchmarks sind stark fehlerhaft und können die Leistung um 100 % überschätzen

Eine neue wissenschaftliche Arbeit, die gemeinsam von Forschern von Spitzenuniversitäten und Amazon verfasst wurde, hat der KI-Branche eine deutliche Warnung übermittelt: Die Benchmarks, die wir zur Messung des Fortschritts verwenden, sind grundlegend fehlerhaft. Die diese Woche veröffentlichte Studie zeigt, dass gängige Bewertungsmethoden die wahren Fähigkeiten eines KI-Agenten um bis zu 100 Prozent falsch einschätzen können.

Die neue Studie wirft einen langen Schatten auf die einflussreichen Bestenlisten, die Investitionen und Entwicklung in Milliardenhöhe steuern, insbesondere solche von Plattformen wie LMArena. Die Forschung, eine Zusammenarbeit zwischen Köpfen von UIUC, Stanford, MIT, Amazon und anderen, stellt die Grundlagen unserer Einstufung von KI in Frage.

Die Autoren argumentieren, dass viele aktuelle Tests für „agentische“ KI – Systeme, die komplexe, mehrstufige Aufgaben ausführen – kritische Probleme in ihrem Design und ihrer Bewertung haben. In dem Papier heißt es: „Viele vorhandene Agenten-Benchmarks können die KI-Leistung aufgrund von Problemen bei der Aufgabeneinrichtung und dem Belohnungsdesign um bis zu 100 % falsch einschätzen …“ Dieses Ergebnis deutet darauf hin, dass die Branche möglicherweise irreführenden Kennzahlen nachjagt.

Eine neue Studie stellt die Grundlagen der KI-Bewertung in Frage

DerPapierMit dem Titel „Establishing Best Practices for Building Rigorous Agentic Benchmarks“ werden zwei Kernfehler identifiziert. Die erste ist die „Ergebnisvalidität“, bei der ein Test nicht bestätigen kann, ob eine KI wirklich erfolgreich war. Die zweite „Aufgabenvalidität“ bedeutet, dass die Aufgabe selbst fehlerhaft ist und Abkürzungen oder triviale Lösungen möglich sind.

In dem Artikel wird beispielsweise hervorgehoben, dass in einigen Benchmarks ein falscher Code-Patch die Testsuite trotzdem bestehen kann, was zu einem falschen Positivergebnis führt. In einem anderen Fall kann ein trivialer Agent, der nichts tut, 38 % der Aufgaben erfolgreich abschließen und übertrifft damit anspruchsvollere Modelle bei bestimmten Metriken.

VERWANDT:

Diese Mängel haben spürbare Konsequenzen. Die Studie ergab, dass Bewertungsfehler die gemeldete Leistung eines Agenten im Vergleich zu seinen wahren Fähigkeiten um bis zu 100 % steigern können. Der nachgelagerte Effekt ist eine erhebliche Verzerrung der Wettbewerbs-Bestenlisten, bei denen die Forscher herausgefunden haben, dass Agenten um bis zu 40 Prozent falsch eingestuft werden können. Dies stellt die Gültigkeit genau der Rankings in Frage, die Labore von Google bis OpenAI verwenden, um Überlegenheit zu behaupten und ihre Forschungsbemühungen zu leiten.

Um dieses Problem zu lösen, haben die Autoren die Agentic Benchmark Checklist (ABC) eingeführt. Dieses Rahmenwerk bietet eine Reihe strenger Richtlinien für die Erstellung wissenschaftlich fundierterer Bewertungen. Ziel ist es, Disziplin in einen Prozess zu bringen, der zu einem hochriskanten und oft kritisierten Zuschauersport geworden ist.

Der Aufstieg und die Überprüfung von Crowdsourcing-Bestenlisten

Nirgendwo ist diese Prüfung intensiver als auf LMArena, der Plattform, die früher als Chatbot Arena bekannt war. Es wurde vom Sky Computing Lab der UC Berkeley ins Leben gerufen und entwickelte sich schnell zu einem festen Bestandteil der Branche. Sein neuartiger Ansatz nutzt Crowdsourcing-basierte, blinde direkte Modellvergleiche, um eine Elo-basierte Bestenliste zu erstellen.

Der Einfluss dieses Systems wuchs exponentiell und gipfelte in einer jüngsten Finanzierungsrunde über 100 Millionen US-Dollar, die das neue Unternehmen mit 600 Millionen US-Dollar bewertete. Anastasios N. Angelopoulos, Mitbegründer von LMArena, beschrieb das ehrgeizige Ziel des Unternehmens für die Plattform wie folgt: „In einer Welt, in der es darum geht, immer größere Modelle zu bauen, ist die schwierige Frage nicht mehr, was KI leisten kann. Vielmehr geht es darum, wie gut sie dies für bestimmte Anwendungsfälle kann und für wen.“

Doch bereits vor diesem neuen Papier äußerten Experten ernsthafte Bedenken hinsichtlich der Gültigkeit solcher Methoden. Kritiker argumentieren, dass eine einfache Präferenzabstimmung kein verlässlicher Maßstab für die Qualität einer KI sei. Emily Bender, Linguistikprofessorin an der University of Washington,äußerte diese Skepsis gegenüber TechCrunch.

Bender behauptete: „Um gültig zu sein, muss ein Benchmark etwas Spezifisches messen und Konstruktvalidität aufweisen – das heißt, es muss Beweise dafür geben, dass das interessierende Konstrukt klar definiert ist …“ Sie wies insbesondere darauf hin, dass „Chatbot Arena nicht gezeigt hat, dass die Abstimmung für einen Output gegenüber einem anderen tatsächlich mit Präferenzen korreliert, wie auch immer diese definiert sein mögen.“

LMArena-Mitbegründer Wei-Lin Chiang widersprach dieser Charakterisierung und sagte gegenüber TechCrunch: „Unsere Community besteht nicht aus Freiwilligen oder Modelltestern. Die Menschen nutzen LM Arena, weil wir ihnen einen offenen, transparenten Ort bieten, an dem sie sich mit KI auseinandersetzen und kollektives Feedback geben können.“

Eine Checkliste für Strenge: Der vorgeschlagene Weg nach vorne

Das neue ABC-Rahmenwerk soll ein Gegenmittel gegen diese Unsicherheit sein. Es bietet eine Reihe konkreter Best Practices, die alles abdecken, von der Sicherstellung, dass Aufgaben richtig gestaltet sind, bis hin zur Überprüfung, dass die Bewertungsmetriken robust sind und nicht leicht manipuliert werden können.

Die Checkliste ist in drei Schlüsselbereiche gegliedert: Aufgabenvalidität, Ergebnisvalidität und transparente Berichterstattung. Dadurch wird nicht nur sichergestellt, dass der Test fair und die Ergebnisse korrekt sind, sondern auch, dass den Benutzern die Einschränkungen des Benchmarks klar kommuniziert werden.

Die Autoren des Papiers demonstrierten den Wert der Checkliste, indem sie sie auf CVE-Bench, einen Cybersicherheits-Benchmark, anwendeten. Durch die Umsetzung der ABC-Grundsätze konnten sie die Leistungsüberschätzung des Benchmarks um deutliche 33 Prozent reduzieren. Dies stellt einen klaren Proof-of-Concept für seine Wirksamkeit dar.

Dieser Schritt in Richtung Standardisierung und Strenge wird von vielen als längst überfällig angesehen. Ion Stoica, Mitbegründer von LMArena und Professor in Berkeley, erkannte die Lücke an, die die Plattform schließen möchte, und erklärte: „Die KI-Bewertung ist oft hinter der Modellentwicklung zurückgeblieben. LMArena schließt diese Lücke, indem sie strenge, von der Community betriebene Wissenschaft in den Mittelpunkt stellt.“

Balance zwischen Einfluss und Integrität in einer schnelllebigen Branche

Die Debatte verdeutlicht eine zentrale Spannung im KI-Wettbewerb: die Notwendigkeit einer schnellen, öffentlich zugänglichen Bewertung gegenüber dem langsameren, methodischeren Tempo der wissenschaftlichen Validierung. Das Team von LMArena hat sich öffentlich zur Fairness verpflichtet und in einem Blog-Beitrag erklärt: „Unsere Bestenliste wird niemals gegenüber (oder gegen) einen Anbieter voreingenommen sein und die Vorlieben unserer Community von Natur aus getreu widerspiegeln. Sie wird wissenschaftlich fundiert sein.“

Dennoch wirft die Abhängigkeit von Crowdsourcing-Feedback der oft unbezahlten Nutzer weiterhin ethische Fragen auf. Kristine Gloria, ehemals vom Aspen Institute,gewarntdass solche Benchmarks „niemals die einzige Messgröße für die Bewertung sein sollten“ und ein Instrument unter vielen sein sollten.

Letztendlich liegt die Verantwortung sowohl bei den Benchmark-Erstellern als auch bei den KI-Laboren, die sie verwenden. Wie Matt Frederikson von Gray Swan AI riet: „Es ist sowohl für Modellentwickler als auch für Benchmark-Ersteller, ob über Crowdsourcing oder auf andere Weise, wichtig, die Ergebnisse den Followern klar mitzuteilen und zu reagieren, wenn sie in Frage gestellt werden.“ Die neue Studie bietet ein leistungsstarkes Tool, das ihnen dabei hilft, genau das zu tun, und die Branche zu einer ehrlicheren Darstellung der Fähigkeiten der KI in der realen Welt drängt.