AI GENERATED 25.06.2026 01:35 Wissenschaft und Forschung

Fine-Tuning und Prompting steigern Genauigkeit von LLMs bei HIV‑Resistenzfragen

Hintergrund und ZielsetzungForscher haben untersucht, inwiefern das Anpassen großer Sprachmodelle (LLM) und das Anwenden von fragespezifischen Anweisungen die Beantwortung wissenschaftlicher Fragen zur HIV‑Medikamentenresistenz verbessern können. Drei Modelle –…

Hintergrund und Zielsetzung

Forscher haben untersucht, inwiefern das Anpassen großer Sprachmodelle (LLM) und das Anwenden von fragespezifischen Anweisungen die Beantwortung wissenschaftlicher Fragen zur HIV‑Medikamentenresistenz verbessern können. Drei Modelle – GPT‑4o, Llama‑3.1‑70B und Llama‑3.1‑8B – wurden dabei verglichen.

Methodik

Für das Fine‑Tuning wurde ein Instruktions‑Set aus 250 HIV‑Resistenzstudien erstellt, das zu jeder Studie 16 Fragen samt Antworten und Erklärungen enthielt. Die Modelle wurden anschließend an 150 nicht genutzten Studien getestet. Zur Bewertung kamen Genauigkeit, Präzision, Recall und F1‑Score zum Einsatz; statistische Vergleiche erfolgten mittels Wilcoxon‑Tests.

Ergebnisse des Fine‑Tunings

Das Fine‑Tuning erhöhte die Präzision um 5 % bei GPT‑4o, um 16 % bei Llama‑3.1‑70B und um 8 % bei Llama‑3.1‑8B. Nur bei Llama‑3.1‑70B erreichte dieser Anstieg statistische Signifikanz. Zusätzlich verbesserte Fine‑Tuning den Recall von GPT‑4o um 11 % mit signifikanter Evidenz.

Ergebnisse des Promptings

Fragespezifisches Prompting steigerte den Recall bei allen Modellen: 6 % für GPT‑4o, 7 % für Llama‑3.1‑70B und 18 % für Llama‑3.1‑8B. Signifikante Verbesserungen wurden ausschließlich für Llama‑3.1‑8B beobachtet. Die Präzision zeigte keine konsistenten Zunahmen.

Kombinierte Anwendung

Die Anwendung von Prompting auf bereits fine‑getunte Modelle führte zu keinen zusätzlichen Verbesserungen über das reine Fine‑Tuning hinaus.

Zusammengefasste Analyse

Bei einer Gesamtbetrachtung aller Modelle zeigte das Fine‑Tuning einen stärkeren Einfluss auf die Präzision (Odds Ratio = 4.35; p = 0.001), während Prompting den Recall stärker beeinflusste (Odds Ratio = 7.09; p = 0.0001).

Schlussfolgerungen

Die Studie belegt, dass sowohl Fine‑Tuning als auch fragespezifisches Prompting die Leistungsfähigkeit von LLMs in diesem Fachgebiet erhöhen können. Fine‑Tuning wirkt vornehmlich auf die Präzision, Prompting bevorzugt die Recall‑Rate. Weitere Forschung ist nötig, um optimale Kombinationen zu identifizieren.Dieser Bericht basiert auf Informationen von PLOS ONE, lizenziert unter Creative Commons BY 4.0 (Open Access). Wissenschaftliche Inhalte, offen zugänglich.

Ende der Uebertragung