Eine aktuelle Studie aus Kanada hat die Vorhersagegenauigkeit von Todesfällen nach einem Jahr für die Gesamtbevölkerung von Ontario untersucht. Dabei wurden traditionelle logistische Regression mit mehreren modernen Ensemble‑Verfahren verglichen, um die optimale Methode für das Risiko‑Adjustment in beobachtungsbasierter Epidemiologie zu ermitteln.
Hintergrund
Die korrekte Adjustierung von Risiken ist entscheidend, um Verzerrungen in der Beziehung zwischen Exposition und Ergebnis zu vermeiden. Präzise Vorhersagemodelle können dabei helfen, konfundierende Faktoren besser zu kontrollieren.
Datengrundlage
In die Analyse wurden alle Erwachsenen (ab 18 Jahren) einbezogen, die am 1. Januar 2022 in Ontario lebten. Über einen Zeitraum von bis zu drei Jahren wurden verschiedene Gesundheits‑ und Versorgungsdaten aus Verwaltungsdatenbanken erfasst. Insgesamt umfassten die Daten 12 080 801 Personen, von denen 121 951 (1,0 %) innerhalb eines Jahres verstarben.
Vergleich der Modelle
Zur Vorhersage des 1‑Jahres‑Mortalitätsrisikos wurden acht Modelle eingesetzt: logistische Regression, Random Forests, Extremely Randomized Trees, Adaptive Boosting, Gradient Boosting, Extreme Gradient Boosting, Newton Boosting und CatBoost. Alle Modelle berücksichtigten das Alter und das Geschlecht der Personen.
Ergebnisse der besten Vorhersage
Die logistische Regression erreichte eine ausgezeichnete Diskriminierung (AUROC 0,926; PR‑AUC 0,256) und eine akzeptable Kalibrierung (ICI 0,0022). Das Modell CatBoost erzielte die höchste Diskriminierung (AUROC 0,933; PR‑AUC 0,280) und die beste Kalibrierung (ICI 0,0003). Ergänzende Sensitivitätsanalysen, bei denen detailliertere Definitionen von Krebs und chronischer Nierenerkrankung verwendet wurden, steigerten die PR‑AUC leicht auf 0,290 und verbesserten die Kalibrierung für die höchsten Risikogruppen deutlich.
Bedeutung der wichtigsten Merkmale
Die Analyse der Merkmalsbedeutung zeigte, dass das Alter den größten Einfluss auf die Vorhersage ausübte. Zusätzlich hatten der Aufenthalt in einer Langzeitpflegeeinrichtung und die Inanspruchnahme palliativmedizinischer Leistungen die stärksten marginalen Effekte auf das Mortalitätsrisiko.
Schlussfolgerungen fĂĽr die Forschung
Die Ergebnisse belegen, dass das maschinelle Lernverfahren CatBoost das genaueste Vorhersagemodell für die 1‑Jahres‑Mortalität in der Gesamtbevölkerung darstellt. Der Einsatz solcher Modelle kann das Risiko‑Adjustment in Beobachtungsstudien verbessern, was zu einer
Ende der Ăśbertragung