Große Sprachmodelle im Endodontie-Examen: Gemini 2.5 Pro erreicht 90,6 % Genauigkeit

Eine aktuelle Studie hat die Leistung von acht modernen großen Sprachmodellen (LLMs) im Endodontie‑Abschnitt des DUS‑Examen geprüft und dabei festgestellt, dass das Modell Gemini 2.5 Pro mit 90,6 % die höchste Genauigkeit erreichte. Die Untersuchung verglich zudem die Modelle in theoretischen Wissensfragen und simulierten klinischen Szenarien.

Studienziel und Kontext

Die Autor der Untersuchung wollten herausfinden, wie gut aktuelle LLMs historische Prüfungsfragen aus dem Spezialisten‑Examen für Zahnmedizin (DUS) beantworten können. Dabei lag das Augenmerk auf der Bewertung sowohl des reinen Fachwissens als auch der Anwendung in klinisch‑situativen Fragen.

Methodik

Insgesamt 127 Multiple‑Choice‑Fragen aus dem Zeitraum 2012 bis 2021 wurden herangezogen. Die acht getesteten Modelle umfassten Claude 4, DeepSeek V3, Gemini 2.5 Pro, ChatGPT‑4o, ChatGPT‑5, Grok 4, LLaMA 4 und Perplexity. Jede Antwort wurde mit den offiziellen Lösungsschlüsseln abgeglichen. Für die statistische Auswertung kamen Pearson‑Chi‑Quadrat‑Tests und McNemar‑Tests zum Einsatz, wobei das Signifikanzniveau bei α = 0,05 lag.

Gesamtergebnisse

Die Analyse zeigte signifikante Unterschiede zwischen den Modellen (p < 0,001). Die Gesamtgenauigkeit reichte von 61,4 % (ChatGPT‑4o) bis 90,6 % (Gemini 2.5 Pro). Damit belegte Gemini 2.5 Pro die Spitzenposition, während ChatGPT‑4o die schwächste Leistung erzielte.

Ergebnisse für klinische Fragen

Im Teilbereich der Clinical Practice Questions (CPQ) erreichte Gemini 2.5 Pro eine Genauigkeit von 93,9 %, deutlich über dem Wert von ChatGPT‑4o (57,6 %). Der Unterschied war statistisch signifikant (p = 0,019).

Ergebnisse für allgemeines Wissen

Bei den General Knowledge and Concept Questions (GKCQ) lag die Genauigkeit von Gemini 2.5 Pro bei 89,4 %, Grok 4 bei 85,1 % und DeepSeek V3 bei 84,0 %. Alle drei Modelle übertrafen ChatGPT‑4o (62,8 %) signifikant (p < 0,001).

Interpretation und Ausblick

Die Resultate verdeutlichen, dass zeitgenössische LLMs ein hohes Maß an endodontischem Fachwissen besitzen, jedoch stark variieren. Die Autoren betonen, dass für einen zuverlässigen Einsatz in der zahnärztlichen Ausbildung und Praxis eine fachspezifische Optimierung sowie eine kontinuierliche Aufsicht durch Experten erforderlich seien.

Dieser Bericht basiert auf Informationen von PLOS ONE, lizenziert unter Creative Commons BY 4.0 (Open Access). Wissenschaftliche Inhalte, offen zugänglich.

Ende der Übertragung

Originalquelle

Große Sprachmodelle im Endodontie-Examen: Gemini 2.5 Pro erreicht 90,6 % Genauigkeit