Video-Transformer erreichen hohe Genauigkeit bei Bangla-Gebärdensprache
Eine aktuelle Untersuchung von Jubayer Ahmed Bhuiyan Shawon, Md Kamrul Hasan und Hasan Mahmud hat gezeigt, dass moderne Video‑Transformer‑Modelle die Erkennung von Gebärden der Bangla Sign Language (BdSL) deutlich verbessern können. Die Studie fokussierte sich auf die automatische Klassifizierung von Gebärden aus Videomaterial, um die Kommunikation für Menschen mit Hörbehinderung zu erleichtern.
Datengrundlage
Für die Experimente wurden zwei Datensätze verwendet: Der kleinere BdSLW60‑Datensatz umfasst 60 häufige Gebärden und enthält 9.307 Videoclips, die auf 30 FPS standardisiert wurden. Der umfangreichere BdSLW401‑Datensatz erweitert die Klassenzahl auf 401 Gebärden, um die Skalierbarkeit der Modelle zu prüfen.
Modellarchitekturen
Die Autoren feinten drei aktuelle Video‑Transformer‑Architekturen – VideoMAE, ViViT und TimeSformer – auf beiden Datensätzen. Als Basis für VideoMAE wurde das vortrainierte Modell MCG‑NJU/videomae‑base‑finetuned‑kinetics eingesetzt.
Trainingsverfahren und Datenaugmentation
Zur Steigerung der Robustheit wurden zufällige Bildausschnitte, horizontales Spiegeln und Skalierung des kurzen Bildrandes als Augmentationsmethoden angewendet. Die Modellauswahl erfolgte mittels 10‑facher, stratifizierter Kreuzvalidierung auf dem Trainingsset von BdSLW60, während die Bewertung mit signer‑unabhängigen Testdaten von den Nutzern U4 und U8 durchgeführt wurde.
Ergebnisse
Der VideoMAE‑Ansatz erzielte die höchste Genauigkeit von 96,9 % auf dem korrigierten BdSLW60‑Datensatz und 81,04 % auf den front‑facing Gebärden des BdSLW401‑Datensatzes. Alle getesteten Transformer‑Modelle übertrafen herkömmliche Machine‑Learning‑ und Deep‑Learning‑Methoden deutlich.
Einflussfaktoren
Die Analyse ergab, dass die Größe des Datensatzes, das Aussehen der Unterzeichner, die Verteilung der Bildausschnitte, die Bildrate sowie die gewählte Modellarchitektur die Erkennungsleistung maßgeblich beeinflussen.
Ausblick
Die Ergebnisse deuten darauf hin, dass Video‑Transformer‑Modelle ein vielversprechendes Werkzeug für die skalierbare und präzise Erkennung von Bangla‑Gebärdensprache darstellen und damit die Barrierefreiheit für die hörbehinderte Gemeinschaft weiter verbessern können.
Dieser Bericht basiert auf Informationen von PLOS ONE, lizenziert unter Creative Commons BY 4.0 (Open Access). Wissenschaftliche Inhalte, offen zugänglich.
Ende der Übertragung
