Eine kürzlich veröffentlichte Untersuchung hat gezeigt, dass Rhesus-Makaken bei einer zweistufigen Entscheidungsaufgabe ihr Verhalten an die statistischen Strukturen von Belohnungen und Zustandsübergängen anpassen. Die Forschung liefert detaillierte Hinweise darauf, wie das Gehirn zwischen modellbasierten und modellfreien Lernstrategien unterscheidet.
Hintergrund und Zielsetzung
Das Ziel bestand darin, die neuronalen Grundlagen des modellbasierten Verstärkungslernens (MB‑RL) zu beleuchten, das im Gegensatz zu einfacheren, habitbasierten (MF‑RL) Strategien flexibel auf Umweltveränderungen reagiert. Frühere Studien hatten bereits den präfrontalen Kortex (PFC) und das Striatum als Schlüsselregionen identifiziert, doch fehlten detaillierte Aufzeichnungen auf Einzelneuronsebene.
Methodik
Forscher zeichneten die Aktivität von Neuronen in vier Hirnregionen auf: dem dorsalen anterioren cingulären Kortex (ACC), dem dorsolateralen PFC (DLPFC), dem Caudate und dem Putamen. Zwei Rhesus-Makaken führten dabei eine zweischrittige Entscheidungsaufgabe aus, bei der die optimale Wahl von der Kombination aus erhaltenen Belohnungen, Übergangswahrscheinlichkeiten und vorherigen Entscheidungen abhing.
Ergebnisse im Frontalkortex
Alle vier Regionen zeigten Signale für erhaltene Belohnungen und verfolgten die Wahrscheinlichkeiten der Zustandsübergänge. Besonders der ACC kodierte die zentrale Interaktion von Belohnung, Übergang und Wahl, die das Kernprinzip des MB‑RL bildet. Auch der DLPFC zeigte entsprechende Signale, jedoch in geringerem Ausmaß.
Ergebnisse im Striatum
Im Caudate wurden sowohl die kombinierten Variablen als auch die aus dem Modell abgeleiteten Wahlwerte repräsentiert. Die Neuronen passten ihre Wertschätzungen an, wenn seltene Übergänge auftraten, was auf ein Update basierend auf strukturellem Wissen hinweist. Das Putamen zeigte ein gegensätzliches Muster bei der Kodierung aktueller und vorheriger Belohnungen, das an dopaminerge Fehlermeldungen erinnert und ein Merkmal des MF‑RL darstellt.
Interpretation und Bedeutung
Die Daten deuten darauf hin, dass der ACC eine zentrale Rolle bei der Integration von Belohnungsinformationen, Übergangsstatistiken und Entscheidungsvariablen spielt, während das Striatum sowohl modellbasierte als auch modellfreie Signale verarbeitet. Diese räumliche Aufteilung legt nahe, dass zielgerichtetes Verhalten durch ein Zusammenspiel von Frontalkortex und Striatum entsteht, wobei zeitlich getrennte Mechanismen unterschiedliche Lernformen unterstützen.
Schlussfolgerungen
Die Studie liefert einen detaillierten Einblick in die neuronalen Mechanismen, die menschliche Entscheidungsfindung zugrunde liegen, und liefert Anhaltspunkte dafĂĽr, wie das Gehirn flexibel zwischen komplexen, modellbasierten Strategien und einfachen, habitbasierten Routinen wechselt.
Dieser Bericht basiert auf Informationen von eLife, lizenziert unter Creative Commons BY 4.0 (Open Access). Wissenschaftliche Inhalte, offen zugänglich.
Ende der Uebertragung