Nové časoprostorové nepřetržité rozpoznávání znakového jazyka pomocí pozorné sítě s mnoha funkcemi(1)
Jun 01, 2023
Abstraktní: U video streamů se snažíme správně detekovat nesegmentované znaky související s kontinuálním rozpoznáváním znakového jazyka (CSLR). Navzdory nárůstu navrhovaných metod hlubokého učení v této oblasti se většina z nich soustředí hlavně na používání pouze funkce RGB, ať už full-frame obrazu nebo detailů rukou a obličeje. Nedostatek informací pro tréninkový proces CSLR silně omezuje schopnost naučit se více funkcí pomocí vstupních video snímků. Využití všech snímků ve videu pro úlohu CSLR by navíc mohlo vést k suboptimálnímu výkonu, protože každý snímek obsahuje jinou úroveň informací, včetně hlavních funkcí při vyvozování šumu. Proto navrhujeme nové časoprostorové nepřetržité rozpoznávání znakového jazyka pomocí pozorné sítě s mnoha funkcemi, abychom vylepšili CSLR poskytnutím dalších klíčových bodů. Kromě toho využíváme vrstvu pozornosti v prostorových a časových modulech k současnému zdůraznění několika důležitých funkcí. Experimentální výsledky z obou souborů dat CSLR ukazují, že navrhovaná metoda dosahuje lepšího výkonu ve srovnání se současnými nejmodernějšími metodami o 0,76 a 20,56 pro skóre WER na souborech dat CSL a PHOENIX.

Superman bylinky cistanche
Klíčová slova: souvislý znakový jazyk; prostorový; temporální; multi-funkce; Klíčové body; sebepozornost
1. Úvod
Znakový jazyk upřednostňuje manuální komunikaci pomocí gest rukou, řeči těla a pohybů rtů namísto zvuku [1,2]. Znakový jazyk obvykle používají lidé, kteří jsou neslyšící nebo nedoslýchaví, ale lze jej použít i v situacích, kdy je nemožné nebo obtížné slyšet zvuky. Proto je potřeba systém rozpoznávání znakového jazyka (SLR), protože pomáhá propojovat lidi, kteří nedoslýchají, a ty, kteří neslyší.
V posledních letech výzkumníci zaměřili velkou pozornost na SLR kvůli bohatým vizuálním informacím, které poskytuje. Nedávné studie SLR jsou obvykle seskupeny do izolovaného rozpoznávání znakového jazyka (ISLR) nebo kontinuálního rozpoznávání znakového jazyka (CSLR). Několik prací se zabývá pouze ISLR [3,4], zatímco jiné analyzují pouze jednodušší úkoly, jako jsou statická gesta pro rozpoznávání abecedy [5]. Mezitím jsou nejnovější metody obvykle složitější, protože řeší úlohy CSLR [6–8]. Ve srovnání s ISLR je CSLR náročnějším problémem, protože zahrnuje rekonstrukci vět.

Čaj Cistanche
Kliknutím sem zobrazíte čajové produkty Cistanche deserticola
【Požádejte o více】 E-mail:cindy.xue@wecistanche.com / Whats App: 0086 18599088692 / Wechat: 18599088692
Výzkum CSLR je stále velmi žádaný, protože jeho realizace úzce souvisí s každodenními podmínkami v reálném světě. Tento přístup si klade za cíl rozpoznat sérii glos, které se vyskytují ve videosériích bez jasné segmentace nebo dokonce vůbec. Kromě toho zahrnuje velké množství výzkumu strojového učení a důkladné pochopení lidského chování. Zahrnuje například sledování lidského pohybu [9], rozpoznávání gest [10] a rozpoznávání obličeje [11]. Přesto existuje několik problémů s prováděním úkolů CSLR.
Za prvé, sběr dat a anotace jsou pro CSLR drahé [12]. To je možná jedna z výzev, kterým čelí při jejím vývoji, protože CSLR je zapojena do velké sítě a množství dat silně ovlivňuje výkon [13]. Navíc několik dostupných datových sad pro znakový jazyk je slabě komentováno [12,14,15]. K vyřešení tohoto problému řada studií použila přístup se slabým dohledem spolu s aplikací modulu zarovnání a extraktoru funkcí na architekturu sítě [12].
Za druhé, ve srovnání s ISLR je CSLR složitější. Dostatek informací se získá pomocí několika funkcí; bylo prokázáno, že se tím dosahuje lepšího výkonu než při použití jediné funkce, jak bylo uvedeno v předchozích pracích [16–18]. Tyto četné funkce se skládají z hlavního znaku, kterým je obraz těla, který dosahuje nejvyšší přesnosti, a doplňkových znaků, jako je pozice, hlava, levá ruka a pravá ruka, které mají nižší přesnost pro individuální výkon [17,18]. Trénink velké sítě s velkým množstvím dat je časově náročný [13]. Přidání vstupního toku také prodlužuje dobu školení, zatímco použití dalších funkcí založených na obrázcích zvyšuje náklady [19]. Proto si musíme vybrat důležité funkce, abychom mohli trénovat efektivně.

Čínská bylina cistanche
Za třetí, video vstup má velký počet obrázků v sekvenci. Některé obrázky mají nejasný tvar ruky kvůli rychlému pohybu, což může vést k nesprávným informacím. Proto námi navrhovaný model využívá sebepozorování na základě [20], aby pomohl vybrat důležité informace. Navíc sebepozornost prokázaná [21,22] má vliv na zvýšení výkonu.
Proto navrhujeme nový model nazvaný nová časoprostorová pozorná multifunkce (STAMF), který zvládne všechny problémy. Navázali jsme na předchozí práce [17,23], u kterých bylo prokázáno, že fungují pro CSLR se slabými problémy s anotací. Konstruují model pomocí tří hlavních komponent: první je prostorový modul, druhý je časový modul a třetí je modul sekvenčního učení. Navrhujeme efektivní a efektivní vícefunkční vstup pomocí funkce full frame spolu s funkcemi klíčových bodů pro provádění úloh CSLR. Funkce full-frame představuje obrázek těla jako hlavní prvek a funkce klíčových bodů jako doplňkovou funkci. Klíčovým bodem je pozice těla, včetně detailu pozice ruky. Tato pozice těla je nejúčinnější doplňkovou funkcí, protože v některých dílech bylo prokázáno, že dosahuje nejvyšší přesnosti po funkci full-frame [17,18]. Využíváme také modul pozornosti, který využívá sebepozorování na základě [20] k zachycení důležité funkce a pomáhá sekvenčnímu učení zlepšit výkon.
Přínos tohoto rukopisu je shrnut následovně: • Zavádíme novou časovou pozornost do sekvenčního modulu, abychom zachytili důležité časové body, které přispívají ke konečnému výstupu; • Představujeme multifunkci, která se skládá z funkce full-frame z hodnoty RGB snímku jako hlavního rysu a klíčových prvků, které zahrnují pozici těla s detaily tvaru ruky jako další funkci pro zvýšení výkonu rozpoznávání modelu; • Metriku WER používáme k tomu, abychom ukázali, že náš navrhovaný model STAMF prostřednictvím experimentů překonává nejmodernější modely na obou srovnávacích souborech CSLR.

Doplněk Cistanche v mé blízkosti – Zlepšení paměti
2. Související práce
V technologii došlo k několika pokrokům a na SLR bylo provedeno mnoho výzkumů. Předchozí studie [24–27] zkoumaly možnost použití ISLR, který má segmentaci pro každé slovo. V posledních letech byly metody založené na hlubokém učení použity k extrakci prvků pomocí konvolučních sítí, buď 2D [28,29] nebo 3D [30,31], pro jejich silnou vizuální reprezentaci. Většina raného výzkumu rozpoznávání znakového jazyka se soustředila na ISLR s multimodálními charakteristikami [30–32], jako jsou RGB, hloubkové mapy a kostry, které poskytují lepší výkon.
V současné době se CSLR stala populárnější, i když nebyla jasně rozdělena mezi jednotlivá slova. Rané práce používají extraktor funkcí CNN [6,33] a HMM [34] k sestavení cíle sekvence. Některé nedávné výzkumy systémů CSLR [17,23] zahrnovaly tři hlavní kroky při provádění úkolu rozpoznávání problémů. Nejprve prováděli extrakci prostorových jevů, poté časovou segmentaci a nakonec syntézu vět s jazykovým modelem [35] nebo použili sekvenční učení [17,23]. Toto sekvenční učení využívalo Bi-LSTM a CTC k dolování vztahu mezi leskem znaků ve video sekvencích. I když používá slabou anotaci, která má nesegmentované videosekvence k definování glos se znakem, tyto přístupy ukázaly slibné výsledky.
Nicméně nejnovější související studie CLSR, která implementovala přístup založený na mnoha funkcích [17], používala pět funkcí současně. Přístup s více funkcemi je těžší ve srovnání s použitím menšího počtu funkcí [19]. Tento přístup také nezvládá hlučné snímky z videosekvence, které mají nejasné informace, jako je rozmazaný tvar ruky kvůli rychlému pohybu. Navíc spoléhání se na sekvenční učení založené na RNN může narazit na problémy s dlouhými sekvencemi a může ztratit globální kontext [20].

Doplněk Cistanche v mé blízkosti – Zlepšení paměti
Současný výzkum si klade za cíl zlepšit výkon přidáním mechanismu sebepozornosti [21,22], který dokáže zvládnout delší sekvence, aby se naučil globální kontext. Sebepozornost je založena na raném výzkumu [20], který ukázal, že sebepozornost má tu výhodu, že dokáže zvládnout dlouhé závislosti. Tato sebepozornost je však snazší naučit se kratší cestu ve srovnání s delší cestou s dlouhými závislostmi. V předchozích pracích CLSR [21,22] mohla sebepozornost pomoci síti naučit se funkci efektivněji.
Proto v tomto článku představujeme nový časoprostorový pozorný multifunkční model. Tento navrhovaný model efektivně extrahuje důležité funkce a lépe se učí sekvenci tím, že poskytuje důležité informace pomocí mechanismu sebepozorování z více funkcí. Všechny procesy jsou prováděny end-to-end přístupem.
3. Navrhovaná metoda
Tato část podrobně popisuje základní techniky našeho navrhovaného modelu pro CSLR. Proto začneme tuto část vysvětlením našeho navrhovaného přehledu modelu. Kromě toho poskytujeme další podrobnosti o každé klíčové složce, včetně prostorového modulu, časového modulu a modulu sekvenčního učení. Kromě toho také vysvětlujeme náš navrhovaný modul pozornosti, abychom pomohli modelu lépe se učit. Nakonec můžeme integrovat rámec pro školení a vyvozování do našeho navrhovaného modelu.
3.1. Přehled rámce
Na základě video vstupu se náš navrhovaný model snaží předpovědět odpovídající znaménko do správné věty s leskem. První modul generuje více prostorových prvků, jako jsou celosnímkové a klíčové body pro každý T snímek videa. Pak nám časový modul umožňuje extrahovat časové korelace prostorových prvků mezi snímky pro oba proudy. Jako poslední krok byly prostorové a časové sítě propojeny s obousměrnou dlouhodobou krátkodobou pamětí (Bi-LSTM) a CTC pro sekvenční učení a vyvozování. Dále vysvětlíme naše hlavní komponenty podrobněji a postupně. Přehled námi navržené architektury je na obrázku 1.

Obrázek 1. Celková architektura navrhované metody se skládá ze tří komponent: prostorového modulu, časového modulu a modulu sekvenčního učení. Prostorový modul nejprve vezme sekvenci obrazu, aby extrahoval prvky po jednotlivých snímcích, a poté použije časový modul k extrahování dočasných prvků. Poté jsou časové znaky odeslány do modulu učení sekvence, aby provedl predikci slova a zkonstruoval jej do věty
3.2. Prostorový modul
Prostorový modul využívá funkci full-frame a klíčové body, jak je znázorněno na obrázku 2. Tento modul využívá architekturu sítě 2D-CNN jako páteř a pro zachycení více funkcí je vybrán ResNet50. ResNet50 je efektivnější při použití ve srovnání s nedávnou architekturou ResNet z hlediska času, přičemž má srovnatelný výsledek [36,37]. RGB používá ResNet50 přímo, zatímco klíčový bod získává HRNet [38] z video snímku a je extrahován pomocí ResNet50, aby se získaly vlastnosti klíčového bodu.

Obrázek 2. Architektura prostorového modulu využívá víceproudový vstup. RGB stream jako full-frame funkce a keypoint stream jako keypoint funkce.
3.2.1. Funkce Full-Frame
Použili jsme naše kroky předběžného zpracování na data RGB a poté jsme naše data vložili do modelu. Poté jsme je vložili jako full-frame vstup do naší architektury. Obrázek 3 ukazuje obrázek původního RGB obrázku na levé straně a oříznutého obrázku na pravé straně. Oříznutý obrázek je použit jako vstup modelu. To ilustruje krok předběžného zpracování, který redukuje méně důležité části obrazu a více se zaměřuje na podepisujícího. Toto oříznutí používá metodu náhodného oříznutí z [12] k rozšíření datové sady. Funkce fullframe je extrahována z oříznutého obrazu pro každý snímek v sekvenci pomocí ResNet50.

Obrázek 3. Funkce na celý snímek využívající RGB obrázek, (levý obrázek) je původní obrázek a (pravý obrázek) je oříznutý obrázek, který lze upravit podle navrhovaného modelu
3.2.2. Vlastnosti klíčových bodů
Extrahovali jsme klíčové body v prostorovém modulu z dat RGB pro každý snímek ve videovstupu. Kvalita klíčových bodů má v našem navrhovaném modelu důležitou roli, takže musíme použít robustní přístup, jako je HRNet [38]. K odhadu všech 133 klíčových bodů těla jsme použili předem trénovaný HRNet [38] a z jeho výsledku jsme použili 27 ze 133 klíčových bodů. Jak je znázorněno na obrázku 4, levá strana je původní klíčový bod horní části těla a pravá strana je vybraných 27 klíčových bodů horní části těla. Těchto 27 klíčových bodů zahrnuje zápěstí, lokty, ramena, krk, ruce a prsty.

Obrázek 4. Vlastnosti klíčových bodů datové sady PHOENIX-RWTH [33,39], (levý obrázek) extrakce z RGB obrázku a (pravý obrázek) je vybraný klíčový bod používaný navrhovaným modelem.
3.3. Časový modul
Časový modul má za cíl naučit se časoprostorové informace z prostorového modulu. Dočasné moduly se konstruují naskládaným dočasným sdružováním pro každý proud. Jak je znázorněno na obrázku 5, modul dočasného sdružování se skládá z časové konvoluční vrstvy a sdružovací vrstvy pro extrahování funkcí ze sekvenčních vstupů.

Obrázek 5. Architektura dočasného modulu se skládá z naskládané 1D-CNN a sdružovací vrstvy s vloženým modulem pozornosti. Pracujte paralelně pro oba proudy prvků zřetězené na konci naskládaných vrstev a vytvářejte jeden dočasný prvek se čtyřikrát menší délkou sekvence.
Vstupem je seznam prostorových multifunkcí z předchozí fáze. Časový rys je získán pomocí časové konvoluční vrstvy, což je jedna 1D konvoluční vrstva se stejnými vstupními a výstupními délkami, následovaná jedinou sdružovací vrstvou, která zmenšuje velikost na polovinu. Použití těchto dvou naskládaných vrstev dočasného sdružování je podle předchozích prací nejlepší konfigurací [12]. Po každém dočasném sdružování vložíme modul pozornosti, který bude podrobně vysvětlen v části 3.4. Nakonec zřetězíme výstup časového sdružování z obou proudů.
3.4. Modul pozornosti
Video má více snímků, kde jsou některé části obrazu někdy rozmazané. Datový soubor RTWH-PHOENIX [33,39] má více vadných rámců než datový soubor CSL [8,40,41]. K tomu dochází, když je pohyb příliš rychlý, vytváří rozmazaný obraz a má za následek nesprávné umístění klíčového bodu. Tento rámec je považován za vadný a potenciálně vede k nesprávné interpretaci funkcí RGB i klíčových bodů. Obrázek 6 ukazuje ilustraci vadných snímků v datové sadě RTWH-PHOENIX [33]. Abychom se s tímto problémem vypořádali, přidali jsme vrstvu pozornosti.

Obrázek 6. Ilustrace defektních snímků na datovém souboru RWTH-PHOENIX [33,39]. Některé klíčové body v oblasti ruky jsou ve špatné poloze kvůli rozmazaným snímkům.
Pomocí algoritmu CTC se zarovnání cesty spolu s jejím označením provede pomocí prázdného štítku a odstraněním opakujících se štítků. CTC dává přednost předpovídání prázdných štítků před hranicí lesku, když nedokáže rozlišit hranici lesku, ale žádný z výsledků není přesvědčivý. To vede síť k používání CTC k vytváření špiček ve výsledcích při analýze, učení a předpovídání [42,43]. Obecně platí, že ztráta CTC hledá klíčové snímky a posledním výsledkem je predikce konkrétního klíčového snímku, který má vysokou pravděpodobnost, že bude prázdným štítkem nebo neprázdným štítkem. Pokud lesk předpovídá stejný štítek nebo prázdný štítek po sobě, výsledkem je stejný výstup. Pokud je však mezi stejným štítkem vložen štítek, i když je tam pouze jedna chyba, dojde k mnohem větší ztrátě. Zde přidání vrstvy pozornosti pomáhá vybrat důležitou časovou sekvenci před jejím použitím pro sekvenční učení.
Pozornostní modul využívá vícehlavý samopozorný mechanismus [20]. Vícehlavý modul se používá ke spuštění několika paralelních mechanismů pozornosti současně. Vícehlavá pozornost běží nezávisle a zaměřuje se na krátkodobé závislosti nebo dlouhodobé závislosti v samostatné hlavě. Každý výstup je pak lineárně zřetězen a transformován do požadovaného tvaru.
Souběžně se vícehlavý mechanismus sebepozorování stará o informace z více reprezentačních podprostorů v závislosti na historii pozorování. Pro jednoduchost označíme vstupní posloupnosti jako X. Matematicky, pro model jednohlavé pozornosti, je daný vstup X t − T plus 1:t=[X t − T plus 1, · · ·, X t ] ∈ RT × N × P jsou získány tři podprostory, jmenovitě dotazovací podprostor Q ∈ RN × dq, klíčový podprostor K ∈ RN × dk a hodnotový podprostor V ∈ RN × dv. Proces učení latentního podprostoru lze formulovat jako [20]:
Q=XWQ, K=XWK , V=XWV,
Potom se škálovaná pozornost tečkového produktu použije k výpočtu výstupu pozornosti jako [20]:
Pozor(Q, K, V)=tak f tmaxQKT/ p dkV,
Navíc, pokud máme více hlav, které souběžně sledují více reprezentací vstupu, můžeme získat relevantnější výsledky současně. Posledním krokem je zřetězit všechny hlavy a znovu je promítnout pro výpočet konečného skóre [20]:
MultiHead(Q,K,V)=Concat(head1,..., heads )WO,
hlava=Pozor (Qi,Ki,Vi),
kde Qi=XWQ i, Ki=XWVi a model WO ∈ R hd × d. Nakonec může vybrat důležitou část ze sekvence funkcí, protože ne všechny informace v sekvenci jsou důležité.
Jak je znázorněno na obrázku 7, modul pozornosti používáme v několika konfiguracích. První modul pozornosti je umístěn na konci prostorového modulu, zatímco druhý a třetí modul pozornosti jsou umístěny v časovém modulu. Druhý modul pozornosti nazývaný raný časový modul je umístěn za prvním blokem časového sdružování jako vstup, zatímco třetí modul dočasné pozornosti, nazývaný modul pozdní časové pozornosti, je umístěn za druhým blokem časového sdružování.

Obrázek 7. Moduly pozornosti jsou zabudovány do prostorových a časových modulů v různých konfiguracích.






