VisionGaiaNews
Live System
AI GENERATED 05.02.2026 • 21:37 Wissenschaft & Forschung

Video-Transformer erreichen hohe Genauigkeit bei Bangla-Gebärdensprache

Eine aktuelle Untersuchung von Jubayer Ahmed Bhuiyan Shawon, Md Kamrul Hasan und Hasan Mahmud hat gezeigt, dass moderne Video‑Transformer‑Modelle die Erkennung von Gebärden der Bangla Sign Language (BdSL) deutlich verbessern können. Die Studie fokussierte sich auf die automatische Klassifizierung von Gebärden aus Videomaterial, um die Kommunikation für Menschen mit Hörbehinderung zu erleichtern.

Datengrundlage

Für die Experimente wurden zwei Datensätze verwendet: Der kleinere BdSLW60‑Datensatz umfasst 60 häufige Gebärden und enthält 9.307 Videoclips, die auf 30 FPS standardisiert wurden. Der umfangreichere BdSLW401‑Datensatz erweitert die Klassenzahl auf 401 Gebärden, um die Skalierbarkeit der Modelle zu prüfen.

Modellarchitekturen

Die Autoren feinten drei aktuelle Video‑Transformer‑Architekturen – VideoMAE, ViViT und TimeSformer – auf beiden Datensätzen. Als Basis für VideoMAE wurde das vortrainierte Modell MCG‑NJU/videomae‑base‑finetuned‑kinetics eingesetzt.

Trainingsverfahren und Datenaugmentation

Zur Steigerung der Robustheit wurden zufällige Bildausschnitte, horizontales Spiegeln und Skalierung des kurzen Bildrandes als Augmentationsmethoden angewendet. Die Modellauswahl erfolgte mittels 10‑facher, stratifizierter Kreuzvalidierung auf dem Trainingsset von BdSLW60, während die Bewertung mit signer‑unabhängigen Testdaten von den Nutzern U4 und U8 durchgeführt wurde.

Ergebnisse

Der VideoMAE‑Ansatz erzielte die höchste Genauigkeit von 96,9 % auf dem korrigierten BdSLW60‑Datensatz und 81,04 % auf den front‑facing Gebärden des BdSLW401‑Datensatzes. Alle getesteten Transformer‑Modelle übertrafen herkömmliche Machine‑Learning‑ und Deep‑Learning‑Methoden deutlich.

Einflussfaktoren

Die Analyse ergab, dass die Größe des Datensatzes, das Aussehen der Unterzeichner, die Verteilung der Bildausschnitte, die Bildrate sowie die gewählte Modellarchitektur die Erkennungsleistung maßgeblich beeinflussen.

Ausblick

Die Ergebnisse deuten darauf hin, dass Video‑Transformer‑Modelle ein vielversprechendes Werkzeug für die skalierbare und präzise Erkennung von Bangla‑Gebärdensprache darstellen und damit die Barrierefreiheit für die hörbehinderte Gemeinschaft weiter verbessern können.

Dieser Bericht basiert auf Informationen von PLOS ONE, lizenziert unter Creative Commons BY 4.0 (Open Access). Wissenschaftliche Inhalte, offen zugänglich.

Ende der Übertragung

Originalquelle

Hinweis zu Quellen & Lizenzen

Die Berichterstattung von VisionGaia News basiert auf öffentlich zugänglichen Informationen aus staatlichen, institutionellen und offen lizenzierten Quellen.

Bezugsquellen:

  • Deutsche Bundesbehörden (z. B. Bundestag, Bundesregierung)
  • Institutionen der Europäischen Union
  • Regierungsstellen des Vereinigten Königreichs
  • Behörden der Vereinigten Staaten
  • Internationale Organisationen (z. B. UN, WHO, Weltbank)
  • Open-Content-Projekte (z. B. Wikinews, Global Voices)
  • Staatliche Quellen aus Drittstaaten (z. B. Russland)

Verwendete Lizenzen & Rechtsgrundlagen:

  • Amtliches Werk gemäß § 5 UrhG (Deutschland)
  • Creative Commons BY 4.0 (Europäische Union)
  • Open Government Licence v3.0 (Vereinigtes Königreich)
  • Open Parliament Licence v3.0 (Vereinigtes Königreich)
  • Public Domain (U.S. Government Work)
  • Public Data / Terms of Use (internationale Organisationen)
  • Creative Commons BY (Open-Content-Projekte)
  • Inhalte offizieller russischer Regierungs- bzw. Staatsquellen (z. B. kremlin.ru, government.ru) — sofern dort angegeben, meist unter CC BY 4.0 bzw. als allgemein zugängliche staatliche Mitteilung
  • Offizielle Dokumente und Rechtsakte aus Russland — viele davon gelten als nicht-urheberrechtspflichtig (Public Domain / government documents), z. B. Gesetze, Verordnungen, Erlasse.

Alle Inhalte werden redaktionell neu formuliert und nicht wortgleich übernommen. Lizenz- und Quellenhinweise finden sich am Ende jedes Artikels.

Staatliche Mitteilungen – auch aus Drittstaaten – werden ausschließlich als Informationsquelle genutzt, neutral dargestellt und nicht wertend übernommen.

Trotz sorgfältiger Verarbeitung kann es in Einzelfällen zu Zuordnungs- oder Darstellungsfehlern kommen. Hinweise nehmen wir ernst und korrigieren diese umgehend.

Privacy Protocol

Wir verwenden CleanNet Technology für maximale Datensouveränität. Alle Ressourcen werden lokal von unseren gesicherten deutschen Servern geladen. Ihre IP-Adresse verlässt niemals unsere Infrastruktur. Wir verwenden ausschließlich technisch notwendige Cookies.
Für Cookies die über das CleanNet hinausgehen, bitte 3. Cookies aktivieren, ansonsten wird alles standardmäßig blockiert. Für mehr Infos die Datenschutzseite lesen.

Core SystemsTechnisch notwendig
External Media (3.Cookies)Maps, Video Streams,Google Analytics etc.
Analytics (Lokal mit Matomo)Anonyme Metriken
Datenschutz lesen