Neuer adaptiver Algorithmus verbessert Online-Clustering von Datenströmen
Ein von Forschern der Bielefeld University of Applied Sciences and Arts entwickelter Algorithmus ermöglicht es, Datenströme in Echtzeit zu clustern, ohne vorher die Anzahl der Cluster festzulegen. Der Ansatz, genannt H‑NGPCA, kombiniert hierarchische, modellbasierte und centroid‑basierte Verfahren und passt sowohl die Clusteranzahl als auch die Dimensionalität lokal an.
Funktionsweise des Verfahrens
H‑NGPCA baut einen hierarchischen Baum aus lokalen Principal Component Analysis‑Einheiten (PCA‑Units) auf. Jede Einheit wird als Hyper‑Ellipsoid modelliert, dessen Form durch ein neuronales Netzwerk‑basiertes Online‑PCA aktualisiert wird. Die Positionierung der Einheiten erfolgt über das Neural‑Gas‑Verfahren, ein centroid‑basiertes Clustering‑Verfahren.
Adaptive Struktur und Dimension
Im Baum wird ein neuer Knoten erstellt, sobald ein Splitting‑Kriterium dies verlangt. Gleichzeitig bestimmt jede Einheit eigenständig, welche Dimensionalität für die von ihr repräsentierten Daten optimal ist, wodurch die Methode flexibel auf wechselnde Datencharakteristika reagieren kann.
Leistungsbewertung
In umfangreichen Benchmarks übertraf H‑NGPCA alle getesteten Online‑Clustering‑Algorithmen mit adaptiver Clusterzahl und erreichte gleichzeitig vergleichbare Ergebnisse zu den besten Offline‑Methoden. Die durchschnittliche Normalized Mutual Information lag bei NMI = 0,87 und der Clustering‑Index bei CI = 0,26.
Publikation und Verfügbarkeit
Die Ergebnisse wurden am 5. Januar 2026 in der Fachzeitschrift PLOS ONE (Band 21, Ausgabe 1, e0339171, DOI 10.1371/journal.pone.0339171) veröffentlicht. Alle zu reproduzierenden Daten stehen als unterstützende Informationsdateien bereit und sind über die Clustering‑Benchmark‑Datenbank (https://doi.org/10.1007/s10489-018-1238-7) zugänglich.
Finanzierung und Interessenkonflikte
Die Forschung wurde vom Bundesministerium für Bildung und Forschung (BMBF) im Projekt VIP4PAPS gefördert. Die Autoren erklärten, dass keine Interessenkonflikte vorliegen.
Dieser Bericht basiert auf Informationen von PLOS ONE, lizenziert unter Creative Commons BY 4.0 (Open Access). Wissenschaftliche Inhalte, offen zugänglich.
Ende der Übertragung
