Studie zeigt, dass große Sprachmodelle bei zahnmedizinischen Fragen besser abschneiden als Suchmaschinen
Eine im Dezember 2024 veröffentlichte Querschnittsstudie hat ergeben, dass große Sprachmodelle (LLMs) bei der Beantwortung gängiger orthodontischer Fragen höhere Bewertungen erhalten als gängige Suchmaschinen. Die Bewertung erfolgte anhand von Qualität, Empathie, Lesbarkeit und Zufriedenheit, wobei LLMs in allen Bereichen signifikant besser abschnitten.
Aufbau und Methodik der Untersuchung
Forscher entwickelten 45 typische orthodontische Fragen, die in sechs Themenbereiche unterteilt waren. Diese Fragen wurden sowohl fünf LLMs als auch drei Suchmaschinen präsentiert. Die Antworten wurden anschließend von Experten anhand eines eigens konzipierten, mehrdimensionalen Bewertungsfragebogens beurteilt.
Bewertungsinstrumente und Skalen
Die Experten nutzten 5‑ bzw. 10‑Punkte‑Likert‑Skalen, um die vier Dimensionen Qualität, Empathie, Lesbarkeit und Zufriedenheit zu messen. Die mittleren Experten-Bewertungen (Median) wurden für jede Antwortgruppe ermittelt.
Ergebnisse im Überblick
LLMs erzielten im Median höhere Werte als Suchmaschinen: Qualität 4,00 gegenüber 3,50, Empathie 3,75 gegenüber 3,50, Lesbarkeit 4,00 gegenüber 3,75 und Zufriedenheit 8,00 gegenüber 7,25. Alle Unterschiede waren statistisch signifikant (p < 0,001).
Stärkste Leistungsbereiche der LLMs
Besonders hervorzuheben waren die Kategorien therapeutische Ergebnisse, Auswahl von Apparaturen und Kosten. In diesen Bereichen übertrafen die von LLMs generierten Antworten die von Suchmaschinen deutlich.
Implikationen für die Patientenaufklärung
Die Autoren schließen daraus, dass LLMs – insbesondere das Modell GPT‑4o – als ergänzende Werkzeuge zur Patientenaufklärung und Selbstverwaltung in der Kieferorthopädie eingesetzt werden könnten. Die höhere Empathie‑ und Lesbarkeitsbewertung deutet darauf hin, dass solche Systeme patientengerechte Informationen liefern können.
Einschränkungen und Ausblick
Die Studie beruht auf einer begrenzten Auswahl von Fragen und Bewertenden. Zukünftige Forschungen sollen die Anwendbarkeit in realen klinischen Settings prüfen und mögliche Bias‑Quellen in den Modellen untersuchen.
Dieser Bericht basiert auf Informationen von PLOS ONE, lizenziert unter Creative Commons BY 4.0 (Open Access). Wissenschaftliche Inhalte, offen zugänglich.
Ende der Übertragung
