KI-Benchmarks: Ein robuster Vergleich?
Bild: Ideogram
In der Tech Branche ist man derzeit nahezu täglich mit neuen Veröffentlichungen von KI-Modellen konfrontiert. Meist von Anbietern wie OpenAI, Meta, Modelle aus Forschungseinrichtungen oder Open Source Projekte über Huggingface. Performance dieser zahreichen Modelle ist der entscheidende Faktor - meist gemessen anhand diverser KI-Benchmarks. Aber wie funktionieren diese und sind sie vertrauensvoll?
Was sind KI-Benchmarks?
Das Ziel von KI-Benchmarks ist es die Leistungsfähigkeit von KI-Systemen objektiv zu bewerten und zu vergleichen. Sie stellen einen Referenzpunkt dar, der zu erreichen angestrebt wird. Dieser kann auf diverse Faktoren abzielen, wie die Geschwindigkeit der Datenverarbeitung, Fehlerquoten bei Aufgaben oder die Genauigkeit bei Entscheidungsfindungen. Grundsätzlich bestehen Benchmarks aus gezielt zusammengestelllten Datensätzen und Aufgaben, welche die gewünschte Komponente abfragen können und meist in Prozent Ergebnisse für eine Einschätzung liefern und Grenzen der Systeme aufzeigen.
Für KI Modelle schauen wir uns vor allem Test für Sprachverarbeitung, Coding und Mathemathik an. Bekannte Benchmark auf die wir ein Auge werfen sind FrontierMath, MATH-500, ARC-AGI, MMLU-Pro, SWE-Bench und den ELO-Score als Vergleich.
Sind KI-Benachmarks sinnvoll?
KI-Benchmarks können eine Orientierung im Qualitätsvergleich von KI-Systemen sein, sind aber lange nicht alles. Ein zentraler Punkt wird im Rennen um die besten Werte sehr häufig vernachlässigt: Die Sinnhaftigkeit für den einzelnen Use-Case.
Obwohl die neusten Modelle immer besser werden, bedeutet das nicht, dass sie ausgerechnet für eine spezifische Tätigkeit die beste Wahl sind. Und nicht immer ist es sinnvoll, das Modell mit den umfangreichsten Fähigkeiten zu verwenden. Vielmehr sollten Anwenderinnen und Anwender konkretisieren, welchen Bedarf sie haben, um zu verstehen, welches Modell ausreichend sein kann. Es geht also in der alltäglichen Arbeit nicht darum mit Kanonen auf Spatzen zu schießen, sondern effizient und direkt zu arbeiten. Hierfür können KI-Benchmarks hilfreich sein, müssen sie aber nicht. Die einfachste Methode herauszufinden, ob ein System zu den eigenen Anforderungen passt, ist das testen und aktive einsetzen. In diesem Blog haben wir bereits einen kleinen Leitfaden entwickelt, wie Unternehmen erste Schritte im Umgang mit KI-Systemen gehen können.
FrontierMath - ein wissenschaftliches Beispiel
In Zusammenarbeit entwickelt mit über 60 Mathematikern, darunter renomierte Professoren und Fields-Medaillen-Träger, besteht der FrontierMath Benchmark aus Hunderten äußerst anspruchsvollen mathematischen Problemen. Diese Aufgaben für die KI-Systeme reichen von simpler algebraischer Geometrie bis hin zu komplexen Themen, wie der Zermelo-Fraenkel-Mengenlehre und decken somit ein breites Mathematisches Spektrum ab. Das manuelle Durcharbeiten dieser Aufgaben stellt selbst für experten eine Tagelange Aufgabe dar.
Im Unterschied zu den meisten anderen Benchmarks am Markt, bleibt der Problemsatz von FrontierMath unter verschluss. Diese streng vertrauliche Herangehensweise zielt dazu ab Datenkontamination zu vermeiden und eine längerfristige Anwendung des Benchmarks zu sichern. Ebenso werden automatisierte Verifzierungsskripte eingesetzt, um eine objektive Bewertung der KI-Systeme zu gewährleisten. Damit können die Forscher Raten durch die KI-Systeme praktisch ausschließen. Ein weiterer verwendeter Benchmark für Mathematische Probleme ist der MATH-500, welcher von OpenAI unter deren Paper “Let's Verify Step by Step” erstellt wurde, wo alle Aufgaben öffentlich einsehbar sind.
MMLU-Pro Benchmark - eine OpenSource Variante
Als OpenSource verfügbarer Benchmark, zielt MMLU-Pro sprachliches Verständnis quer über breite Themenfelder zu testen. Der Fokus bei diesem Benchmark liegt im Reasoning Faktor für Modelle, abgesehen von komplexeren Fragestellungen wird dieser Faktor auch mit einer erhöhten Auswahl an Antworten mit 10 Möglichkeiten verstärkt. Dabei werden in den 12.000 unterschiedlichen Fragen aus akademischen Textbüchern 14 diverse Thematiken abgefragt. Von Wirtschachft über Chemie und Coding bis hin zu Philosophischen Inhalten.
ARC-AGI - generelle Intelligenz bei KI?
Der ARC-AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence) Benchmark wurde 2019 von François Chollet entwickelt um die generelle Denkfähigkeit von KI zu ermitteln. Bis heute zählt dieser Benchmark als Test für die Ermittlung der generellen Intelligenz von KI Modellen.
Bis 2024 hatten wir, gemessen anhand der OpenAI Modellen mit GPT3 und -4o einen Anstieg von nahezu Null bis maximal 5 Prozent. Erst mit dem Einsatz von Reasoningmodellen konnten höhere Werte erzielt werden, wie mit OpenAI’s o3 75,7% und mit einer super-compute Infrastuktur sogar Werte von 87,5%. Dies zeigt einen massiven Anstieg in Form dieses Benchmarks. Inwiefern durch solche Ergebnisse nun generelle Intelligenz von KI gegeben ist beläuchten wir später mit der Brille von KI-Medienkompetenz genauer.
OpenAI O Series Performance anhand des ARC-AGI Benchmarks
SWE-Bench Verified - eine Entwicklung von OpenAI
SWE-Bench Verified ist eine Zusammenarbeit von OpenAI mit deren ursrprünglichen Entwicklern. Das ziel dieser Benchmark ist das Lösen realer Softwareprobleme. Der ursprüngliche SWE-Bench wurde durch manuelle Überprüfung von Entwicklern der 500 enthaltenen Aufgaben aufgesetzt. Damit wurde sichergestellt, dass diese tatsächlich lösbar und repräsentativ für reale Entwicklungsprobleme sind. Die Aufgaben stammen aus diversen Open-Source-Python Repositories auf GitHub. Die Rolle von Open AI liegt vor allem in der Verfeinerung und Validierung des usrpünglichen Benchmarks unter ihrem Preparadeness Framework.
ELO-Score - eine dynamische Bewertung
Der ELO-Score wurde ursprünglich von Arpad Elo entwickelt, um die Spielstärke von Schachspielenden objektiv messen zu können. Die Idee: Jemand gewinnt Punkte bei einem Sieg und verliert welche bei einer Niederlage. Dieses Konzept wurde nun für die Bewertung von LLMs herangezogen und bietet somit eine dynamische und kontinuierliche Bewertungsgrundlage. Diese Methode basiert auf Echtzeit-Nutzerbewertungen.
Der große Vorteil dieser Methode ist, dass es die Möglichkeit bietet eine Vielzahl von Modellen gleichzeitig zu bewerten, neue Modelle schnell zu integrieren und eine Bewertung über diverser Themen und Sprachen durchzuführen. Im Gegensatz zu statistischen Benchmarks haben wir hierbei keine vordefinierten Aufgaben und können somit eher reale szenarien wiederspiegeln. Dieser Ansatz des ELO-Scores vermindet somit qualitative menschliche Bewertung mit einer objektiven Skala. Besonders gut funktioniern soll er daher bei kreativen Aufgaben.
KI-KOMPETENZ WORKSHOP
Die Context Verify Workshops bilden Sie und ihr Team optimal für die neue KI-Kompetenz-Verordnung aus. Profitieren Sie von unserem Fachwissen direkt aus der Entwicklungsbranche. Leicht verständlich, persönlich durchgeführt, vor Ort und digital.
Sind diese Benchmarks Robust?
Für die Beantwortung dieser Frage muss man meiner Meinung nach die Brille der KI- und Medienkompetenz aufsetzen. Es fangt an bei der Auswahl un der Interpretation der KI-Benchmarks. Dabei ist deren Herkunft, Relevanz und Vertrauenswürdigkeit kritisch zu hinterfragen.
In der Realität treffen wir auf sogenanntes Sandbagging - eine Methode zur gezielten Manipulation von Testergebnissen bei Benchmarks. Dabei werden Modelle mit Blick auf die Aufgaben so trainiert, dass sie in den gewünschten Kategorien besser abschneiden und in unrelevanten dafür ein paar Punkte verlieren. Das führt zu einer verzerrten Darstellung der Modellanbieter. Ebenfalls können Faktoren, wie die Verunreinigung von Daten oder mangelnde Dokumentation in der Modellerstellung Ergebnisse von Benchmarks manipulieren. Dies ist unter anderem ein Grund warum MathFrontier deren Aufgaben vertraulich behandelt.
Vorfälle, wie die Enthüllung der verheimlichten Finanzierung von OpenAI für den Benchmark FrontierMath, zeigen, dass die Interessen der Ersteller der Benchmarks in der Bewertung nicht außer acht gelassen werden dürfen. Durch den Zugang von OpenAI auf einen Teil der Benchmark Aufgaben stellt sich die Frage, ob die guten Ergebnisse des o3 Modell mit 25,2 % im Test so verlässlich in einem Vergleich herangezogen werden können.
Für die Testung eigener Use-Cases stellen Benchmarks, wie die oben genannten, definitiv einen erfolgreichen Ersten Schritt dar. Dabei ist es wichtig, dass wir die Funktionalitäten der Benchmarks beachten und mit einem kritischen Augen auf deren Entwickler und deren Interessen blicken. Als nächsten Schritt empfehlen wir jedoch die Ergänzung mit eigenen Tests im Unternehmen. Damit kann das Phänomen von Overfitting zu Benchmarks, wobei die Ergebnisse zu nah an den Trainingdaten und Aufgaben liegen, vermieden werden. Es gibt zahlreiche KI-gestützte Testmanagement-Tools, die bei der Entwicklung und Priorisierung für Testfälle unterstützen. Somit ist eine Kombination aus der Verwendung von statistischen Benchmarks und einem kontinuierlichen eigenen Validierungsprozess eine robuste und vertrauensvolle Möglichkeit der Bewertung eigener Modelle.
Jorrit Kappel
Experte in den Bereichen künstliche Intelligenz, Medienkompetenz und Online-Gefahren mittels Fakes.
📧 info@context-verify.eu