AttentionMNIST: Datová sada sledování pozornosti po kliknutí myší pro rozpoznávání ručně psaných číslic a abeced
Feb 22, 2024
Několik modelů založených na pozornosti, které rozpoznávají objekty pomocí sekvence záblesků, přineslo výsledky rozpoznávání ručně psaných čísel. Nejsou však k dispozici žádná data sledování pozornosti pro rozpoznávání ručně psaných číslic nebo abecedy. Dostupnost takových údajů by umožnila vyhodnotit modely založené na pozornosti ve srovnání s lidskou výkonností. Shromažďujeme data sledování kliknutí myší od 382 účastníků, kteří se snaží rozpoznat ručně psané číslice a abecedy (velká a malá písmena) z obrázků pomocí sekvenčního vzorkování. Obrázky z referenčních datových sad jsou prezentovány jako podněty. Shromážděná datová sada, nazvaná AttentionMNIST, se skládá ze sekvence ukázkových (kliknutí myší) umístění, prstanovené štítky třídy při každém odběru vzorků a dobu trvání každého odběru vzorků. V průměru naši účastníci pozorují pouze 12,8 % obrazu pro rozpoznání. Navrhujeme základní model pro předpovídání umístění a třídy (tříd), které účastník vybere při příštím vzorkování. Když jsou vystaveni stejným podnětům a experimentálním podmínkám jako naši účastníci, vysoce citovaný model posilování založený na pozornosti zaostává za lidskou účinností.

Čínská cistanchebylina- Prevence produktů Alzheimerovy choroby
Modely strojového učení (ML), které rozpoznávají objekty pomocí sekvence letmých pohledů, si v posledních letech získaly zájem díky své škálovatelnosti a účinnosti. Mnoho z těchto modelů, například 1–7, uvedlo experimentální výsledky na referenčním datovém souboru MNIST pro rozpoznávání ručně psaných čísel. Bohužel nejsou k dispozici žádné údaje o sledování pozornosti pro MNIST. To zabraňuje hodnocení modelů založených na pozornosti ve srovnání s lidským výkonem. Do této mezery jsme se dostali tím, že jsme shromáždili soubor dat od dospělých účastníků, kteří se snažili rozpoznat ručně psané číslice a abecedy z obrázků pomocí sekvenčního vzorkování. Na rozdíl od sledování pozornosti při pohybu očí (emAT) účastník klikne na místo na obrázku, které chce vidět (forma sledování pozornosti při kliknutí myší (mcAT)). Bezprostředně poté vybere třídu (třídy), do které na základě svých dosavadních pozorování předpovídá, že by objekt mohl patřit. Při každé vzorkovací epizodě se tedy naše data skládají z vybraného umístění obrázku, předpovězených označení třídy a času od poslední epizody účastníkem. Po každém snímku obdrží účastník odměnu na základě jeho výkonu (přesnosti a efektivity).

Výhody cistanche tubulosa-Anti Alzheimerova choroba
Výhody mcAT oproti emAT pro rozpoznávání ručně psaných číslic/abecedy.
(1) maso obsahuje významnou intra- a interpersonální variabilitu v umístění fixace, zejména u statických podnětů (obrazů)8,9. K dosažení statisticky významných závěrů je tedy potřeba velké množství dat o fixaci oka. mcAT není citlivý na některé zdroje technického šumu, které jsou společné pro data sledování očí10. (2) Pohyby očí mohou být důsledkem dobrovolných i nedobrovolných mechanismů11. Abychom usnadnili rozhodování závislé na úkolu, předkládáme účastníkům adekvátní čas, kontext a posilovací signály, které lze také předložit modelu ML. (3) Přesnost a přesnost dat emAT závisí na eye-trackeru, zatímco totéž u mcAT je nezávislé na jakémkoli zařízení. (4) Synchronizovat pohyby očí s výběrem třídy je výzva. Abychom to překonali, v našem případě se místo odběru vzorků a třída (třídy) vyberou ve stejné epizodě. (5) A konečně, naše metoda umožňuje sběr dat pomocí Amazon Mechanical Turk (MTurk), as in12,13, což je nákladově a časově efektivní a snadno reprodukovatelné.
Příspěvky.
Shromažďujeme datovou sadu mcAT nazvanou AttentionMNIST pomocí MTurk od 382 účastníků, kteří jsou odměněni za přesné a efektivní rozpoznávání ručně psaných číslic a abeced (velká a malá písmena) z obrázků prostřednictvím sekvenčního vzorkování. Snímky z referenčních datových sad (MNIST, EMNIST) jsou prezentovány jako podněty. V průměru je zaznamenáno 169,1 odpovědí na číselnou/abecední třídu. Pomocí této datové sady ukazujeme následující: • V průměru potřebují účastníci 4,2, 4,7 a 4,9 vzorků k rozpoznání číslic, velkých a malých písmen, což odpovídá pouze 11,3 %, 13,4 % a 13,7 % plochy obrázku. . Přesnost klasifikace se zvyšuje s několika vzorky. • Model prezentovaný jako základní linie může předpovídat třídu (třídy) a umístění, které si účastník vybere při další epizodě odběru vzorků, s přesností 74,4 %, respektive 67,7 %, obě zprůměrované ze všech odběrů vzorků a souborů dat. Přesnost predikce tříd se zvyšuje a přesnost predikce polohy klesá s rostoucím počtem vzorků. • Při vystavení stejným podnětům a podmínkám jako naši účastníci vyžaduje vysoce citovaný model opakující se pozornosti (RAM) na bázi zesílení3 3,7, 8,5 a 7,6 vzorků k rozpoznání číslic, velkých a malých písmen, což odpovídá 8,9 % , 21.{31}} %, respektive 18,7 % plochy obrázku. Jiné modely posilování založené na pozornosti (např. 1,2,4,5,7,14) lze podobně hodnotit ve srovnání s lidským výkonem.

Doplněk Cistanche v mé blízkosti – Zlepšení paměti
Kliknutím sem zobrazíte produkty Cistanche zlepšující paměť a prevenci Alzheimerovy choroby
【Požádejte o více】 E-mail:cindy.xue@wecistanche.com / Whats App: 0086 18599088692 / Wechat: 18599088692
Související práce
Časová sekvence kliknutí myší v mcAT je analogická skenovací cestě pohybu očí10. mcAT může účinně nahradit emAT, protože spolu významně korelují10,12,13,15–17. Ve studiích mcAT byly použity různé druhy podnětů, jako jsou obrázky živých a neživých objektů10, obrázky přírodních scén12,13, statické webové stránky13, rozvržení vyhledávací stránky16 a dva seznamy alfanumerických řetězců pro vizuální srovnání17. Nicméně, mcAT nebyl použit pro ručně psané číselné/abecední klasifikační úlohy nebo hodnocení modelů klasifikace na základě pozornosti. Studie mcAT využívaly funkce, jako je doba do kontaktu, relativní frekvence fixace v oblastech zájmu (AOI), relativní podíl subjektů, které klikly alespoň jednou v AOI10, počet fixací na zkoušku, refixace v rámci zkoušek, doby prodlevy a dráhy skenování17 , fixační mapy12,13, AOI a vzor toku informací16. Posloupnost časově označených míst kliknutí a předpokládaných označení tříd tvoří nezpracovaná data nezbytná k vyhodnocení účinnosti a přesnosti modelů založených na pozornosti nebo lidí v klasifikačních úkolech. Z těchto dat lze odvodit různé vlastnosti. Naše datová sada mcAT s mnoha výhodami oproti datům sledování očí vyplňuje zásadní mezeru v modelovém výzkumu založeném na pozornosti v AI, ML a dalších oblastech. Náš soubor dat umožní vyhodnotit modely založené na pozornosti ve srovnání s lidskou výkonností. To mimo jiné usnadní vývoj efektivních systémů pro optické rozpoznávání znaků v reálném čase, které mají široké využití v praxi (viz např.18–20). Principy, jimiž se řídí vizuální fixace, lze předpokládat a testovat pomocí naší datové sady. Úspěšné principy lze přenést do vývoje systémů pro úkoly vizuálního rozpoznávání v reálném světě, kde je klíčovým zájmem efektivita, jako je autonomní řízení.
Data
Naše data se skládají ze sekvence T epizod pro každého účastníka. Údaje z každé epizody se skládají z (1) umístění na obrázku, na který účastník klikl (jedno kliknutí na obrázek na epizodu), (2) třídy (tříd) vybrané účastníkem a (3) času, který účastník strávil účastník zaregistrovat aktuální vzorek (tj. čas, který uplynul mezi posledním a aktuálním kliknutím na obrázek). Tato část vysvětlí náš proces shromažďování dat včetně výběru podnětů, účastníků, vizuálních úkolů, hodnocení výkonu a filtrování dat.
Výběr podnětů. Stimuly jsou vybírány z obrázků ve dvou referenčních datových sadách: (1)
Datová sada MNIST21 se skládá ze 7 0, 000 označených obrázků (28×28 pixelů) s 10 ručně psanými číslicemi {0, 1, ..., 9}. (2)
Datový soubor EMNIST22 se skládá ze 145 600 obrázků (28×28 pixelů) ručně psaných anglických abeced velkými a malými písmeny, které tvoří vyváženou třídu. Všechny obrázky jsou označeny jednou z 26 tříd {a, b, ..., z}. Štítek s velkými nebo malými písmeny však není spojen s žádným obrázkem. Z každé kategorie vybereme 15 správně vytvořených číslic z MNIST a 15 dobře vytvořených abeced, každou z datových sad EMNIST s velkými a malými písmeny EMNIST. Dobře vytvořená číslice nebo abeceda je podobná normě své třídy. Představujeme tedy podněty ze sady 15(10 + 26 + 26)=930 jedinečných obrázků, přičemž 15 obrázků patří do každé z 62 tříd. Správně tvarovaných 930 obrázků je vybráno následovně:
Krok 1: Normalizujte každý obrázek pomocí min-max a nastavte intenzitu mezi 0 a 1.
Krok 2: Označte dobře tvarované obrázky EMNIST velkými nebo malými písmeny. Pro každou třídu abecedy je ručně vybrána a označena správně vytvořená abeceda z obrázků velkých i malých písmen. Vypočítá se kosinusová podobnost všech obrázků patřících do této třídy se dvěma označenými obrázky. Snímkům, které jsou nad prahem kosinové podobnosti (empiricky zvoleno jako 0.8), je přiřazen štítek s velkými nebo malými písmeny.
Krok 3: Vypočítejte průměr obrázků patřících do každé třídy. Průměrný obraz třídy tvoří její normu. Snímek je způsobilý být stimulem, pokud jeho kosinusová podobnost s průměrným obrazem jeho třídy je větší než empiricky stanovená prahová hodnota (0,7 pro MNIST, 0,75 pro EMNIST).
Krok 4: Mezi vhodnými obrázky je ručně vybráno 15 obrázků z každé třídy podle toho, jak dobře jsou tvarované. Každý obrázek, původně 28×28 pixelů, je zmenšen na 27×25 odstraněním pixelů poblíž hranic, protože nemají žádné změny intenzity. Průměr těchto 15 obrázků je vypočítán pro každou z 62 tříd. Tyto střední obrázky označujeme jako I1, I2, ..., In pro n tříd v každé datové sadě.
Účastníci.
Naší studie se zúčastnilo celkem 382 odlišných dospělých jedinců. Nebyla použita žádná výběrová kritéria. Účastník mohl odpovědět na více obrázků. Pro každou z 62 tříd bylo zaznamenáno v průměru 169,1 odpovědí.

Výhody cistanche tubulosa -Proti Alzheimerově chorobě
Vizuální úkol.
Rozhraní MTurk pro naši vizuální úlohu je znázorněno na obr. 1. Na plátně o velikosti 270×250 je vždy zobrazen obrázek na pozadí s nízkou intenzitou. Obrázky pozadí a podnětů jsou desetkrát převzorkovány na 270×250. Střed plátna je zarovnán se středem obrázků. Pozadí Zpočátku je pozadí průměrem všech obrázků v datové sadě, ze kterých je čerpán podnět. Po první epizodě je pozadí průměrem všech obrázků ze sady tříd vybraných účastníkem v poslední epizodě. V reálném světě se kontext pro umístění, velikost a orientaci číslice nebo abecedy získává z písma v jejich sousedství, které zde chybí. Když byly naše experimenty prováděny s prázdným pozadím, účastníci často vzorkovali místa obrazu, která neobsahovala žádnou část objektu. Toto chování bylo potlačeno prezentací středního obrázku vybrané třídy (tříd) na pozadí s nízkou intenzitou a zmenšením velikosti všech obrázků MNIST a EMNIST z 28×28 pixelů na 27×25. Pokaždé, když si účastník vybere místo na plátně kliknutím na něj, zobrazí se 50×50 pixelů uprostřed v tomto místě ze snímku stimulu. Odhalený patch se bude zobrazovat až do poslední epizody. Úkol účastníka sestává ze tří kroků v každé epizodě t (t=1, ..., T):
Krok 1: Kliknutím kamkoli na plátno 270×250 odhalíte patch, který chce ochutnat. Přijímá se pouze první kliknutí.
Krok 2: Rozpoznejte číslici/abecedu ze všech dosud pozorovaných vzorků. Účastník si může vybrat více tříd a bude si muset vybrat alespoň jednu třídu ze seznamu tříd zobrazeného pod plátnem.
Krok 3: Pokračujte kliknutím na „Další“ v dolní části obrazovky. Aby mohl účastník přesně a rychle odvodit třídu, bude muset vybrat místa uvážlivě na základě svých pozorování až do aktuální epizody. Pro epizodu není žádný časový limit. Celkový čas pro T epizod obrazu však omezujeme na šest minut. Vybrali jsme T=12, protože vysoce citované práce o rozpoznávání nebo generování rukopisu na základě pozornosti používaly méně než 12 letmých pohledů (např. RAM3 dokázal rozpoznat MNIST číslice na 7 letmých pohledů, DRAW23 mohl generovat MNIST číslice do 11 letmých pohledů) a lidé dokážou rozpoznat ručně psané číslice a abecedy na mnohem méně než 12 letmých pohledů.
Hodnocení výkonu. Účastníkovi je přiděleno skóre na základě jeho přesnosti a efektivity ve smyslu počtu pozorovaných vzorků. Nechť je to soubor tříd, který si vybral v jakékoli epizodě t. Deset, jeho skóre v t je:

Obrázek 1. Naše rozhraní MTurk z pohledu účastníka. Je zobrazeno druhé vzorkování pro EMNIST velkou abecedu.

kde |.| označuje mohutnost množiny. Celkové skóre udělené v T epizodách je h {{0}} T t=1 Pt. Maximální počet bodů v T epizodách je tedy T, pokud si vždy vybere pouze správnou třídu. Minimální počet bodů v T epizodách je nula, pokud si vždy vybere sadu tříd, která nezahrnuje správnou třídu. Tedy 0 Menší nebo rovno h Menší nebo rovno T. Čím dříve účastník vybere správnou třídu, tím vyšší bude jeho skóre. Tento skórovací mechanismus tedy bere v úvahu přesnost rozpoznávání a efektivitu vzorkování. Pokus o maximalizaci skóre výběrem pouze jedné třídy z úplně první epizody bude riskantní, protože pokud se nejedná o správnou třídu, bude uděleno skóre nula, zatímco skóre vyšší než nula bude uděleno, pokud si účastník vybere více tříd ( dokonce všechny třídy), které zahrnují správnou třídu. To bude účastníka motivovat k tomu, aby v jakékoli epizodě odpověděl na základě pravděpodobných tříd v jeho mysli. Skóre udělené v každé epizodě je zveřejněno pouze po dokončení T epizod, aby se zdrželo poskytování jakékoli nápovědy účastníkovi. V MTurk je odměna, kterou účastník obdrží za obrázek, úměrná jeho celkovému skóre, h.
Filtrování dat.
Pokud je skóre účastníka v poslední (tj. T-té) epizodě pro stimulační snímek nulové, jeho data zaznamenaná pro tento snímek se vyřadí. Data jsou také vyřazena, pokud účastník opustí úkol neúplný. S tímto kritériem výběru jsme získali odpovědi na 1736 podnětů od MNIST, 4431 podnětů od EMNIST velkým písmenem a 4315 podnětů od EMNIST malým písmem; to znamená v průměru 169,1 odpovědí na třídu.
Modely a metody pro využití dat
V této části ilustrujeme užitečnost shromážděných dat tím, že (4.1) poskytneme základní model pro předpovídání chování účastníka a (4.2) ukážeme, jak lze stávající model posílení založený na pozornosti porovnat s rozpoznáváním lidských čísel/abecedy. výkon. Základní linie pro predikci chování. Chování v jakékoli epizodě se skládá z výběru místa a výběru třídy. Protože vzorek obsahuje různé množství informací pro různé pozorovatele nebo dokonce pro stejného pozorovatele v různých časech9, je predikce chování každého účastníka obtížným problémem. Nechť n je počet tříd v datové množině, ηt je singletonová množina obsahující skutečnou třídu pro stimulační obraz v t, ct je množina tříd a lt je umístění vybrané účastníkem v t, jako jeho pozorování v t, a 1:t označuje sekvenci 1, 2, ..., t. Do jakéhokoli t jsou pozorování účastníka o1:t a místa, která si vybral, jsou l1:t. Problém predikce chování účastníka formulujeme následovně: Predikce třídy Odhadněte pravděpodobnost i∈ct (i=1, 2, ..., n) vzhledem k jeho o1:t a l1:t, tj. P( i ∈ ct|o1:t, l1:t). Predikce polohy Odhadněte pravděpodobnost lt+1 vzhledem k jeho o1:t, l1:t a ct, tj. P(lt+1|o1:t, l1:t,ct). Predikce třídy. Abychom předpověděli třídu, kterou si účastník zvolí v epizodě t, vypočítáme pravděpodobnost, že obrazový podnět v t patří do třídy I vzhledem k umístění účastníka l1:t a odpovídajícím pozorováním o1:t, a to následovně:

kde Ii je průměr obrazů stimulů (27×25) patřících do třídy i, I′ je obraz 27×25 obsahující o1:t při l1:t, · označuje skalární součin a .označuje euklidovskou normu. Všechny intenzity pixelů jsou nezáporné. V jakékoli epizodě t tvoří k nejvyšších pravděpodobných tříd z rozdělení přesvědčení P(i|o1:t, l1:t) množinu tříd ˆct, předpovězenou naším modelem, kde k=|ct|. Přesnost klasifikace se měří pomocí Jaccard indexu (JI). JI měří podobnost mezi dvěma množinami, X a Y, jako: J(X, Y) {{10}} |X ∩ Y|/|X ∪ Y|. JI je ohraničena mezi 0 a 1; pokud X=Y, J(X, Y)=1. V jakékoli epizodě t je přesnost klasifikace účastníka J(ηt,ct), zatímco přesnost našeho modelu je J(ηt, ˆct). Vzhledem ke svému jmenovateli JI více penalizuje, když se zvyšuje počet prvků v predikované množině (ct nebo ˆct), které nejsou v ηt, což je pro náš případ žádoucí vlastnost. Podobnost mezi klasifikací účastníka a našeho modelu se měří pomocí J(ct, ˆct). Náš model je také hodnocen z hlediska přesnosti výběru a odmítnutí třídy s ohledem na každého účastníka. Nechť st=ct − ct−1 je množina nových vybraných tříd a rt=ct−1 − ct je množina tříd odmítnutých účastníkem v t. Podobně ˆst=ˆct − ct−1 je množina nových vybraných tříd a ˆrt=ct−1 − ˆct je množina tříd odmítnutých naším modelem v t. Potom lze výběr a odmítnutí třídy modelu porovnat s třídou účastníka pomocí J(st, ˆst), když |st| > 0 a J(rt, ˆrt), když |rt| > 0, resp. Predikce polohy. Hypotéza V ideálním případě by rozložení přesvědčení ve všech třídách mělo být unimodální (tj. pouze jeden vrchol) a tenké gaussovské (tj. malá směrodatná odchylka) tvaru, což naznačuje, že účastník je přesvědčen o třídě (stavu) podnětu (prostředí). Jak je však zřejmé z našich údajů (viz obr. 2), účastník je často zmaten mezi více třídami, zejména během několika prvních epizod. V těchto případech má distribuce jeho přesvědčení několik vrcholů nebo je tlustá Gaussova. Předpokládáme, že cílem účastníka je konvergovat k unimodálnímu a tenkému Gaussianu, k jehož dosažení selektivně vzorkuje místa, která snižují pravděpodobnost všech tříd kromě jedné. Tato hypotéza vede k minimalizaci nejistoty ohledně tříd (stavů prostředí), což je dobře známý princip řídící akce24, včetně pohybů očí25.

Obrázek 2. Trvání a rozdělení třídy mezi všechny účastníky a podněty patřící do kategorií '0', 'a' a 'A'.
Te observations at certain locations in a stimulus image can discriminate between certain classes. Te observation at a location l might indicate that the numeral/alphabet belongs to class I and not to class j. Such locations are more salient than others in achieving a participant's goal. To sample such locations, a saliency map, Dij, is computed such that if l is salient, the observation at l is evidence to increase the probability of class I and decrease that of j. Mathematically, Dij = N (., σ ) ∗ g(.), where ∗ is the convolution operator, g(.) is a saliency scoring function, and N (., σ ) is a 5×5 Gaussian kernel with standard deviation σ = 6 to smooth the saliency scores. We denote the set of all saliency maps as D = {Dij: i, j ∈ {1, 2, ..., n}, i �= j}. A location l in a stimulus image is salient for class i with respect to class j if Dij(l)>θ, kde práh θ=0.5 × max(D) je empiricky určená skalární veličina.
Za kandidáty na funkci g považujeme dvě asymetrické metriky, Kullback-Leiblerovu (KL) divergenci a rozdíl. Divergence KL Vzhledem ke dvěma normalizovaným středním obrazům, Ii a Ij, divergence KL KL(Ii, Ij) měří ztrátu informace, když se Ij použije k aproximaci Ii. To se vypočítá pro každý pixel k as26: KL(Ii,k, Ij,k)=Ii,k log δ + Ii,k Ij,k+δ, kde Ij,k je intenzita k-tého pixelu Ij a δ je regularizační konstanta. Když Ii,k=Ij,k, KL(Ii,k,Ij,k) → 0. Rozdíl U dvou normalizovaných středních obrázků Ii a Ij je rozdíl pro každý pixel k Diff (Ii,k, Ij,k)=Ii,k − Ij,k. Když Ii,k=Ij,k, Rozdíl (Ii,k, Ij,k)=0. Účastník si není jistý, pokud jde o sadu tříd, ct, které si v aktuální epizodě vybral. Proto pro predikci polohy uvažujeme pouze ty mapy význačnosti v D, které zahrnují třídy v ct. Místo je předpovězeno, pokud je význačné na základě těchto map význačnosti a nebylo nikdy vybráno účastníkem. Tus, vzhledem k o1:t, l1:t a ct, je umístění lt+1 předpovězeno následovně:

kde Ŵ je množina 3--tic obsahujících předpokládané umístění ˆl, třídu, pro kterou je význačná (i), a vzhledem ke které třídě (j). Umístění je předpovězeno správně, pokud existuje �ˆl, i, j� ∈ Ŵ takové, že �ˆl − lt+1� < ǫ, I ∈ ct+1 a j /∈ ct{{3} }, kde ǫ je maximální euklidovská vzdálenost mezi středovým pixelem a libovolným pixelem v pozorovacím poli. Pseudokód pro predikci polohy je zobrazen v Algoritmu 1. Podrobné vysvětlení pseudokódu je zahrnuto v sekci S1 doplňkového materiálu. (Rozdělení pravděpodobnosti, P(lt+1|o1:t, l1:t,ct), lze vypočítat za předpokladu, že skóre význačnosti míst mimo Ŵ je nulové, a poté normalizace skóre význačnosti všech místa k součtu do jednoty. Tato pravděpodobnost však nebyla použita, protože pro účely tohoto článku je dostatečná rovnice (3).)

Hodnocení modelů založených na pozornosti.
Jako zástupce modelů založených na pozornosti považujeme vysoce citovaný model opakované pozornosti (RAM)3, který uvádí experimentální výsledky na datovém souboru MNIST. Model zesílení sekvenčně vzorkuje obraz a v každém okamžiku vzorkování rozhoduje o tom, kde bude vzorkovat dále, takže je vhodný pro vyhodnocení pomocí shromážděných dat.
RAM
klasifikuje obrázky pomocí sekvence pohledů. Další umístění je vybráno stochasticky z distribuce parametrizované lokalizační sítí. Tento model je trénován end-to-end maximalizací následujícího cíle3:

kde M je počet epizod, T je počet pozorování, xi 1:t jsou sekvence interakce získané spuštěním aktuálního agenta do I epizod, ui t je aktuální akce, θ je množina trénovatelných parametrů, Ri t je kumulativní odměna, bt je základní linie a π(ui t|xi 1:t; θ ) je politika. Chování RAM lze porovnat s chováním účastníků porovnáním fixačních map získaných ze sekvence míst předpokládaných RAM a míst vybraných účastníky. Fxační mapa se vypočítá tak, že se každému umístění přiřadí hodnota, která se rovná četnosti jeho výběru, a poté se tyto hodnoty normalizují, aby se vytvořilo rozložení přes všechna umístění.
Metriky pro porovnání fixačních map. Pro metriky srovnávající dvě fixační mapy, P a Q, pečlivě dodržujeme 26. K porovnání distribuce míst odběru vzorků používáme tři metriky založené na distribuci: KL divergence (KL), Pearsonův korelační koeficient (CC) a podobnost (SIM). z modelu s modelem od účastníků zaznamenaným ve shromážděných datech.
KL (definovaný dříve) je vysoce citlivý na nulové hodnoty.
CC může vyhodnotit lineární vztah mezi dvěma mapami jako26: CC(P, Q)=σ (P, Q) σ (P)σ (Q), kde σ je rozptyl nebo kovariance. Protože CC je symetrický, nedokáže odvodit, zda jsou rozdíly mezi fixačními mapami způsobeny falešně pozitivními nebo falešně negativními výsledky.
SIM se měří jako 26: SIM(P, Q)=k min(Pk, Qk), kde k Pk=k Qk=1. Stejně jako CC je SIM symetrická a zdědí stejnou nevýhodu. SIM je také velmi citlivá na chybějící hodnoty a penalizuje předpovědi, které nezohledňují hustotu základní pravdivosti.
Výzkum lidí a zvířat.
Institutional Review Board na University of Memphis rozhodl, že tato studie nesplňuje definici Úřadu ochrany lidských subjektů pro výzkum výzkumu lidských subjektů a 45 CFR část 46 neplatí. Tato studie tedy nevyžaduje schválení ani přezkoumání IRB.
Experimentální výsledky Analýza dat.
Shromážděná data lze vizualizovat z hlediska pořadí distribuce vybraných lokalit (obr. 3), vybraných tříd (obr. 2) a trvání mezi po sobě jdoucími epizodami (obr. 2). Tato distribuce jsou velmi podobná pro tři datové sady. Pro jakoukoli číslici nebo abecedu se rozložení vybraných míst po poslední epizodě podobá rozložení intenzit pixelů dané třídy z datové sady. Posloupnost vybraných umístění je však stochastická. Rozdělení tříd naznačuje zmatek mezi kategoriemi s podobnými strukturami v prvních několika epizodách, kdy si účastníci vyberou více tříd. Tento zmatek je redukován větším odběrem vzorků. Existuje významná pozitivní korelace mezi mírou záměny (# vybraných tříd/celkem # tříd) a délkou odběru vzorků (viz obr. 4). Pokud je počet vybraných tříd vysoký (nízký), doba trvání mezi po sobě jdoucími epizodami je vysoká (nízká). CC sekvence umístění vybraných účastníkem pro třídu není významná (tabulka 1). To se očekává kvůli mezisubjektové variabilitě ve vzorkování statických snímků. Průměrný počet vzorků požadovaných účastníkem k přesné předpovědi třídy je poměrně nízký. V průměru trvá 4,2, 4,7 a 4,9 vzorků, což odpovídá 36, 44,1 a 48,1 sekundám k přesné klasifikaci obrázků MNIST, EMNIST na velká a malá písmena. Účastníci v průměru viděli pouze 11,3 %, 13,4 % a 13,7 % plochy obrázku pro přesnou klasifikaci obrázku číslic, velkých písmen a malých písmen (viz obr. S2 v doplňkovém materiálu). Tyto výsledky zdůrazňují účinnost systému lidského vizuálního uvažování, i když s nižším rozlišením než data sledování očí, ale s menším šumem a variabilitou. Tyto empirické výsledky mohou být užitečné pro navrhování modelů založených na pozornosti pro aplikace v reálném světě. Predikce chování. V této části je hodnocena výkonnost našeho základního modelu z hlediska toho, jak přesně dokáže předpovědět umístění každého účastníka a výběr třídy. Protože naše experimentální výsledky používající dvě skórovací funkce význačnosti, divergenci KL a rozdíl, jsou docela podobné, jsou výsledky uváděny pouze pomocí rozdílu, pokud není uvedeno jinak. Predikce třídy. Predikce třídy a její metody vyhodnocení přesnosti jsou popsány v části "Predpověď třídy". Přesnost predikce třídy, znázorněná na obr. 5, je vypočítána pro všechny třídy pro všechny vzorky. Průměrná přesnost predikce tříd ve všech vzorcích a souborech dat je 74,4 % (standardní vývoj 26,5). Obrázky 5a a b ukazují, že soubor tříd vybraných účastníky a naším základním modelem (Rov. 2) je v počátečních epizodách značně nepřesný a zlepšuje se s nárůstem vzorků. Obrázek 5c ukazuje, že během počátečních epizod jsou tyto dvě sady, ct a ˆct, zcela odlišné; podobnost se zvyšuje s nárůstem vzorků. Totéž platí pro výběr nových tříd (viz obr. 5f). Nicméně, třídní odmítnutí jsou podobná u počátečních epizod; podobnost se dále zvyšuje s více vzorky (viz obr. 5e). Protože J(st, ˆst)=|(ct ∩ ˆct) − ct−1| |(ct ∪ ˆct) − ct−1| a J(rt, ˆrt)=|ct−1 − (ct ∪ ˆct)| |ct−1 − (ct ∩ ˆct)|, z obr. 5e, f lze odvodit, že v počátečních epizodách je průsečík mezi ct−1 a ct ∪ ˆct malý, což naznačuje, že zpočátku účastníci a náš základní model provést mnoho změn ve výběru třídy mezi po sobě jdoucími epizodami. Proto je zpočátku proces výběru třídy vysoce stochastický. Zatímco během počátečních epizod existují určité rozdíly mezi předpovědí třídy účastníků a našeho modelu, chování se s více vzorky stále více podobá. Během prvních několika (typicky 4 až 7) epizod jsou odhaleny velmi výrazné části stimulu. To pomáhá vybrat pouze správnou třídu v pozdějších vzorcích, což zvyšuje přesnost predikce. Protože existuje mnoho tříd, jejichž střední šablony odpovídají pozorovaným částem stimulu během několika počátečních epizod, proces výběru třídy je výrazně stochastičtější, což vede k nízké přesnosti klasifikace ze strany účastníků i našeho modelu.

Obrázek 3. Rozdělení míst odběru vzorků mezi všechny účastníky pro každou číselnou/abecední třídu a každou epizodu odběru vzorků. Každý řádek odpovídá třídě, každý sloupec odpovídá epizodě vzorkování, která se zvyšuje zleva doprava.
Predikce polohy. Přesnost předpovědi polohy našeho základního modelu (rovnice 3), zprůměrovaná ze všech vzorků a souborů dat, je 67,7 % (standardní vývoj 14.1) (viz obr. 5d). Trend této přesnosti předpovědi je opačný než trend přesnosti předpovědi třídy. Vysvětlení však zůstává stejné. Přesnost předpovědi polohy je během počátečních vzorkování vysoká, protože během těchto epizod jsou vybrána vysoce nápadná místa, přičemž v pozdějších epizodách se ponechávají vybrat méně nápadná místa. Vzhledem k tomu, že existuje mnoho lokalit s nízkou význačností, je jejich výběrový proces vysoce stochastický, a tudíž obtížně předvídatelný, což vede ke snížení přesnosti předpovědi se zvýšením počtu vzorků. Klesající trend je jedinečný pro každý soubor dat (viz obr. 5d), protože počet tříd a počet vysoce nápadných míst užitečných pro diskriminaci se mezi soubory dat liší. Čím nižší je počet tříd a vysoce význačných rozlišujících lokalit, tím rychlejší bude pokles přesnosti predikce polohy se zvýšením vzorkování.

Obrázek 4. (vlevo) Errorbar graf časového rozdílu (v sekundách) mezi po sobě jdoucími vzorky zprůměrovanými ve všech třídách. Tat je, hodnota zobrazená v epizodě vzorkování t je doba, která uplynula mezi kliknutím účastníka na snímek v čase t − 1 at. (Vpravo) Errorbar graf zmatku zprůměrovaný ze všech tříd v každé epizodě. Chybové úsečky označují std. dev.

Obrázek 5. Vyhodnocení našeho základního modelu (viz sekce "Základní linie pro predikci chování"). (a) Přesnost klasifikace (acc.) účastníků a (b) přesnost našeho základního modelu se skutečnými štítky jako základní pravda. (c) Klasifikační podobnost (J(ct, ˆct)), (d) přesnost předpovědi polohy, (e) přesnost odmítnutí třídy a (f) přesnost výběru třídy našeho základního modelu s údaji účastníků jako základní pravdou. Podrobnosti naleznete v části „Předpověď chování“.

Tabulka 1. Průměrný Pearsonův korelační koeficient (corr.) pro fxační sekvence pro stejnou třídu. Pro jakoukoli fixaci je vzdálenost euklidovská a směr se měří jako polární úhel vzhledem ke středu podnětů jako počátku. Std. dev. jsou uvedeny v závorkách.
Hodnocení RAM.
Pro každou třídu a vzorkování jsou porovnány fixační mapy z RAM (použili jsme implementaci RAM z github.com/hehefan/Recurrent-Attention-Model) a shromážděná data pro stejné stimuly prezentované v MTurk. Pro spravedlivé srovnání s účastníky jsme v RAM zafixovali délku sekvence na T=12, první místo vzorkování ve středu snímku, vstupní pozorování na pole 5×5 s vybraným umístěním jako jeho středem a upravili funkci odměny o Eq. (1). Kumulativní odměna, Rt v rov. (4,) je nahrazeno kumulativním skóre t τ=1 Pτ získaným z rov. (1). Vzhledem k tomu, že účastník může v jakékoli epizodě vybrat více tříd, pro model RAM, místo předpovídání jedné třídy na základě nejvyšší pravděpodobnosti, považujeme za práh střední pravděpodobnost ve všech třídách a předpovídáme sadu tříd ct s pravděpodobnostmi většími než je práh. Tento ct se používá pro výpočet skóre pomocí Eq. (1). Za těchto podmínek vyžaduje RAM 3,7, 8,5 a 7,6 vzorků k rozpoznání číslic MNIST, velkých a malých abeced EMNIST, což odpovídá 8,9 %, 21.0 %, 18,7 % plochy obrázku. Ve srovnání s našimi účastníky (viz sekce "Analýza dat") je tedy RAM méně efektivní. Viz tabulka 2. Výsledky z porovnání fixačních map z RAM a nasbíraných dat jsou uvedeny v tabulce 3. KL je vyšší díky své citlivosti na nulové hodnoty. To znamená, že několik míst je vzorkováno účastníky, ale ne RAM. Tyto experimenty lze použít jako základ pro hodnocení míst odebraných pomocí modelu pozornosti.

cistanche výhody - zlepšit paměť
Diskuse
Paradigma mcAT, jak je použito v tomto článku, má určité odlišnosti od těch, které primárně spoléhají na pohyby očí a pohledy při studiu mechanismů rozpoznávání objektů. V posledně jmenovaném případě upoutají pozornost nejprve význačné části scény, po nichž následují sakadické pohyby očí, které směřují pohled očí na význačná místa27. Pohled je řízen signály zdola nahoru a shora dolů, které spolu s informacemi o význačnosti tvoří prioritní mapy, které vedou pohyby očí pro rozpoznání objektů. Vzhledem k tomu, že účastníci této studie sledovali statické obrázky za podmínek volného prohlížení a s dostatkem času (šest minut pro T=12 odběr vzorků), pravděpodobně se zapojili do série sakadických pohybů očí nebo vizuálního uvažování28, aby prozkoumali obrázek před kliknutím na AOI. Tyto pohyby očí mohly být zachyceny v emAT (pomocí eye trackeru), ale ne v mcAT. Tyto pohyby očí jsou však ovlivněny blouděním mysli. Zatímco mcAT je také ovlivněn touláním mysli29, účinek může být snížen, kdykoli účastníci zareagují po vizuálním uvažování. Vzhledem k tomu, že pohyby očí v reakci na podnět jsou ovlivněny daným úkolem30, vzorce pohybu očí účastníků byly pravděpodobně ovlivněny přiřazeným tříkrokovým úkolem při každém vzorkování (viz část „Vizuální úkol“). Pokud by byl použit eye tracker, pohyby očí účastníků k prozkoumání vzorku by byly smíchány s pohyby očí, aby klikli na vybrané třídy, což by zkomplikovalo interpretaci vizuálního zkoumání vzorku. Kliknutí na třídu (třídy) je nezbytným krokem, protože odhaluje, i když introspektivně, předpokládanou třídu (třídy) v mysli účastníka. Je pravděpodobné, že pohledy bezprostředně před a po výběru AOI – možná také podporované fixačními očními pohyby{10}}nejvíce přispěly k rozpoznání čísel/abecedy. Domníváme se, že účastníci vybrali diagnostické oblasti obrazu, aby rozlišili mezi třídami, a tyto oblasti pravděpodobně obsahují směs diagnostických informací zdola nahoru (např. vizuální kontrast) a shora dolů (šablona číslic/abeceda). To je v souladu s naším zjištěním, že účastníci rychle (v průměru do 5 vzorků) rozlišili mezi třídami stimulů zdánlivě výběrem diagnostických záplat.

Tabulka 2. Porovnání účinnosti mezi našimi účastníky a modelem RAM z hlediska průměrného počtu vzorků potřebných k rozpoznání číslice/abecedy. Procento pozorované oblasti obrazu je uvedeno v závorkách.

Tabulka 3. Vyhodnocení fixačních map z RAM pro stimuly prezentované v experimentech MTurk zprůměrované ze všech tříd a vzorků. Std. dev. jsou uvedeny v závorkách.
Závěry
Zavedli jsme datovou sadu mcAT pro rozpoznávání ručně psaných číslic a abeced pomocí sekvenčního vzorkování. Data jsou shromažďována od 382 účastníků, kterým jsou prezentovány snímky vybrané ze srovnávacích datových sad (MNIST, EMNIST). V průměru je zaznamenáno 169,1 odpovědí na číselnou/abecední třídu. Data jsou pečlivě analyzována, aby odhalila účinnost lidského vizuálního rozpoznávání. Účastníci pozorovali pouze 12,8 % obrazu pro rozpoznání. Navrhli jsme základní model k předpovědi umístění a třídy (tříd), které by účastník vybral při příštím vzorkování. Ukázali jsme, jak lze naše experimentální podmínky a data použít k vyhodnocení modelu posílení založeného na pozornosti ve srovnání s lidským výkonem. Tato datová sada mcAT s mnoha výhodami oproti datům sledování očí zaplňuje zásadní mezeru v modelovém výzkumu založeném na pozornosti v AI, ML a dalších oblastech.
Reference
1. Ranzato, MA O učení, kde hledat. arXiv:1405.5488, (2014).
2. Ba, J., Salakhutdinov, RR, Grosse, RB, & Frey, BJ Učení modelů opakující se pozornosti bdění a spánku. In NIPS, 2593–2601 (2015).
3. Mnih, V. a kol. Rekurentní modely vizuální pozornosti. In NIPS, 2204–2212 (2014).
4. Ba, J., Mnih, V., & Kavukcuoglu, K. Rozpoznávání více objektů s vizuální pozorností. arXiv:1412,7755 (2014).
5. Dutta, JK & Banerjee, B. Variace v přesnosti klasifikace s počtem letmých pohledů. In IJCNN, 447–453 (IEEE, 2017).
6. Larochelle, H. & Hinton, GE Učíme se kombinovat foveální záblesky s Boltzmannovým strojem třetího řádu. In NIPS, 1243–1251 (2010).
7. Elsayed, G., Kornblith, S. & Le, QV Saccader: Zlepšení přesnosti modelů tvrdé pozornosti pro vidění. In NIPS, 702–714 (2019).
8. van Beers, RJ Zdroje variability v sakadických pohybech očí. J. Neurosci. 27(33), 8757–8770 (2007).
9. Itti, L. & Baldi, P. Bayesovské překvapení přitahuje lidskou pozornost. Vis. Res. 49(10), 1295–1306 (2009).
10. Egner, S. a kol. Pozornost a získávání informací: Porovnání kliknutí myší se sledováním pozornosti při pohybu očí. J. Eye Mov. Res. 11(6), (2018).
11. Peterson, MS, Kramer, AF & Irwin, DE Skryté přesuny pozornosti předcházejí mimovolním pohybům očí. Vnímejte. Psychophys. 66(3), 398-405 (2004).
12. Jiang, M. a kol. Silicon: Výraznost v kontextu. V CVPR, 1072–1080 (2015).
13. Kim, NW a kol. BubbleView: Rozhraní pro crowdsourcing map důležitosti obrázků a sledování vizuální pozornosti. ACM Trans. Počítat. Hučení. Komunikujte. 24(5), 1–40 (2017).
14. Sermanet, P., Frome, A. & Real, E. Pozor na jemnozrnnou kategorizaci. arXiv:1412.7054 (2014).
15. Egner, S., Itti, L. & Scheier, C. Porovnání modelů pozornosti s různými typy dat o chování. Vyšetřování. Oftalmol. Vis. Sci. 41(4), S39 (2000).
16. Navalpakkam, V. a kol. Měření a modelování chování oko-myš za přítomnosti nelineárních rozvržení stránek. V Proc. Int. Conf. WWW, 953–964 (2013).
17. Matzen, LE, Stites, MC & Gastelum, ZN Studium vizuálního vyhledávání bez eye trackeru: Hodnocení umělé foveace. Cogn. Res. Princ. Implicitní. 6(1), 1–22 (2021).
18. Tafi, AP a kol. OCR jako služba: Experimentální hodnocení Google Docs OCR, Tesseract, ABBYY FineReader a Transym. V Int. Symp. Vis. Comp., 735–746 (Springer, 2016).
19. Memon, J., Sami, M., Khan, RA & Uddin, M. Ručně psané optické rozpoznávání znaků (OCR): Komplexní systematický přehled literatury (SLR). IEEE Access 8, 142642–142668 (2020).
20. Chaudhuri, A., Mandaviya, K., Badelia, P. & Ghosh, SK Optické systémy rozpoznávání znaků. In Optické systémy rozpoznávání znaků pro různé jazyky se Sof Computing, 9–41 (Springer, 2017).
21. LeCun, Y. a kol. Učení založené na přechodech aplikované na rozpoznávání dokumentů. Proč. IEEE 86(11), 2278–2324 (1998).
22. Cohen, G., Afshar, S., Tapson, J. & van Schaik, A. EMNIST: Rozšíření MNIST na ručně psané dopisy. arXiv:1702.05373, (2017).
23. Gregor, K., Danihelka, I., Graves, A., Rezende, D. & Wierstra, D. DRAW: A recurrent neuron network for image generation. In ICML, 1462–1471 (2015).
24. Friston, K. Te princip volné energie: Hrubý průvodce mozkem?. Trends Cogn. Sci. 13(7), 293–301 (2009).
25. Mirza, MB, Adams, RA, Friston, K. & Parr, T. Představení bayesovského modelu selektivní pozornosti založeného na aktivní inferenci. Sci. Rep. 9(1), 1–22 (2019).
26. Bylinskii, Z., Judd, T., Oliva, A., Torralba, A. & Durand, F. Co nám různé metriky hodnocení říkají o modelech nápadnosti? IEEE Trans. Anální vzor. Mach. Intell. 41(3), 740–757 (2018).
27. Itti, L. & Koch, C. Výpočtové modelování zrakové pozornosti. Nat. Neurosci. 2(3), 194-203 (2001).
28. Lamme, VAF Vizuální funkce generující vědomé vidění. Přední. Psychol., 11, (2020).
29. da Silva, MRD & Postma, M. Bloudící mysli, putující myši: Sledování počítačové myši jako metoda k odhalování bloudění mysli. Počítat. Hučení. Chovej se. 112, 106453 (2020).
30. Schütz, AC, Braun, DI & Gegenfurtner, KR Pohyby očí a vnímání: výběrový přehled. J. Vis. 11(5), 9–9 (2011).
31. Intoy, J. & Rucci, M. Jemně vyladěné pohyby očí zvyšují zrakovou ostrost. Nat. Commun. 11(1), 1–11 (2020).






