AI GENERATED 02.07.2026 21:15 Wissenschaft und Forschung

LLMs erreichen bis 2025 fast 80 % Genauigkeit im chinesischen Pflegeexamen

In den Jahren 2022 bis 2025 wurden fünfzehn führende große Sprachmodelle (LLMs) anhand der chinesischen Nationalen Pflegezulassungsprüfung (NNLE) getestet. Die Analyse zeigte, dass die besten Modelle die Genauigkeit von 47,0 % im Jahr 2022 auf 78,8 % im Jahr 2025 steigerten und damit die angenäherte Bestehensgrenze von 300 Punkten fast erreichten.

Methodik

Die Untersuchung beruhte auf einem Korpus von 9.800 Multiple-Choice‑Fragen, die aus den offiziellen NNLE‑Jahrungen 2022‑2025 extrahiert wurden. Die Modelle wurden im Zero‑Shot‑Modus mit einheitlichen Prompt‑Schemata abgefragt, wobei jedes Modell nur Prüfungen bearbeitete, die nach seiner Veröffentlichung stattfanden.

Ergebnisse nach Modelltyp

Ein zentrales Ergebnis ist die konstante Überlegenheit chinesisch‑sprachiger Modelle gegenüber internationalen Pendants. Der durchschnittliche Vorsprung betrug 6,1 Prozentpunkte im Jahr 2023 und verringerte sich bis 2025 auf 3,0 Prozentpunkte.

Der relative Vorteil des jeweils besten Modells gegenüber dem zweitbesten schwankte. Im Jahr 2023 lag er bei 4,5 Prozentpunkten, 2024 bei 3,0 Prozentpunkten und 2025 bei 3,8 Prozentpunkten, was auf nicht monotone Fortschritte hindeutet.

Abschnittsbezogene Leistung

Die Leistungsanalyse differenzierte zwischen dem fachlichen Abschnitt „Professional Practice“ und dem anwendungsorientierten Abschnitt „Practical Skills“. In der Wissensdomäne erreichten die Modelle durchschnittlich 81,6 % richtige Antworten, während im praktischen Teil die Genauigkeit bei 70,9 % lag.

Fehleranalyse

Trotz der hohen Punktzahlen wiesen die Top‑Modelle bei 43 % der Fehler Schwächen im klinischen Denkvermögen auf, insbesondere bei der Priorisierung von Pflegeinterventionen. Diese Fehlerkategorie dominierte die Fehlermuster.

Implikationen

Die Autoren betonen, dass die erreichten Ergebnisse nicht als Nachweis für klinische Einsatzfähigkeit oder autonome Praxis interpretiert werden dürfen. Die Prüfungsleistung spiegelt primär codiertes Fachwissen wider, nicht jedoch die komplexe klinische Urteilsbildung.

Die Studie liefert damit eine wichtige Referenz für zukünftige Entwicklungen von LLMs im Gesundheitsbereich und unterstreicht die Notwendigkeit, diagnostische und interaktive Fähigkeiten über reine Wissensabfrage hinaus zu stärken.

Dieser Bericht basiert auf Informationen von PLOS ONE, lizenziert unter Creative Commons BY 4.0 (Open Access).

Ende der Uebertragung

Methodik

Ergebnisse nach Modelltyp

Abschnittsbezogene Leistung

Fehleranalyse

Implikationen

Quellenverzeichnis & Rechtliches

Lizenzprotokolle

Quellenverzeichnis & Rechtliches

Privacy Protocol