BESTEHT CHATGPT EINEN GESCHICHTSTEST AUF PHD-NIVEAU?

GPT-4 Turbo beantwortete die meisten Fragen in einem fortgeschrittenen Geschichtstest nicht korrekt, wie ein Experiment des Complexity Science Hubs zeigt.

Die künstliche Intelligenz GPT-4 Turbo ist in einem Geschichtstest auf PhD-Niveau durchgefallen, weil sie die meisten Fragen nicht korrekt beantwortet hat. Das Experiment machte der Complexity Science Hub.

KI überrascht Wissenschaftler negativ

Federführend war Peter Turchin, Leiter der CSH-Gruppe Social Complexity and Collapse. Er und sein Team prüften das historische Wissen von KI-Modellen wie ChatGPT-4, Llama und Gemini. «Grosse Sprachmodelle wie ChatGPT waren in einigen Bereichen enorm erfolgreich», sagt Turchin, etwa bei der Unterstützung von Rechtsanwaltsgehilfinnen und -gehilfen.

Gehe es aber darum, die Charakteristika vergangener Gesellschaften zu beurteilen, insbesondere ausserhalb Nordamerikas und Westeuropas, seien die Fähigkeiten der KI deutlich begrenzter. Ein überraschendes Ergebnis dieser Studie war, wie schlecht diese Modelle tatsächlich abschnitten. Das zeige, dass KI sehr bereichsspezifisch sei.

Im Vergleich zu Menschen versagte die KI

Die Sprachmodelle erzielten in einigen Kontexten gute Ergebnisse, in anderen – insbesondere im Vergleich zu Menschen – aber sehr schlechte. GPT-4 Turbo erzielte bei einem Multiple-Choice-Test mit vier Antwortmöglichkeiten eine Trefferquote von 46 Prozent. Laut Turchin und seinem Team ist das zwar besser als die Zufallsrate von 25 Prozent, verdeutlicht aber dennoch erhebliche Lücken im historischen Verständnis.

«Ich dachte, die KI-Chatbots würden deutlich besser abschneiden», sagt auch die Co-Autorin und Informatikerin Maria del Rio-Chanona: «Geschichte wird oft als eine Sammlung von Fakten betrachtet, doch manchmal ist Interpretation erforderlich, um sie sinnvoll zu erfassen.»

Je jünger die Epoche, desto ungenauer die KI

Die sieben getesteten Modelle der Familien Gemini, OpenAI und Llama waren besonders treffsicher bei Fragen zur Frühgeschichte, insbesondere aus der Zeit zwischen 8000 v. Chr. und 3000 v. Chr. Die Genauigkeit nahm jedoch bei jüngeren Epochen deutlich ab, mit den grössten Lücken ab 1500 n. Chr. bis in die Gegenwart.

Die Ergebnisse zeigen je nach Region grosse Leistungsunterschiede: OpenAIs Modelle schnitten in Lateinamerika und der Karibik besser ab, während Llama in Nordamerika am besten abschnitt. Beide Modellfamilien zeigten schwächere Leistungen für Afrika südlich der Sahara. Llama zeigte zudem eine geringere Genauigkeit für Ozeanien. Die Unterschiede könnten auf Verzerrungen in Trainingsdaten hinweisen, die bestimmte historische Narrative bevorzugen und andere vernachlässigen, so die Studie.

KI für historische Untersuchungen ungeeignet

«Die Sprachmodelle verfügen trotz beeindruckender Fähigkeiten noch nicht über das tiefgreifende Verständnis, das für fortgeschrittene Geschichtsforschung auf PhD-Niveau erforderlich ist», bilanziert del Rio-Chanona. «Sie eignen sich hervorragend für die Vermittlung grundlegender Fakten, aber wenn es um eine differenziertere historische Untersuchung geht, sind sie der Aufgabe noch nicht gewachsen.»

2025-01-22T10:17:42Z