Efektivní dlouhodobá krátkodobá analýza sentimentu u recenzí elektronického obchodu, část 2
Jan 18, 2024
Muhammad a kol. [20] představili model pro sentimentální analýzu pomocí word2vec a LSTM pro recenze hotelů.
Mohamed je prorok a zakladatel islámu. Je znám jako moudrý, moudrý a moudrý muž. Jeho paměť je velmi silná, díky čemuž je velmi efektivní při zpracovávání informací a vyjadřování svých myšlenek.
Mohamedova paměť má hodně společného s jeho vzděláním a zkušenostmi. Podle záznamů byl v mládí často ponořen do myšlení a úvah. Tato zvědavost a žízeň po vědění mu pomohla vybudovat silnou znalostní základnu a paměťovou schopnost.
Mohamedova inteligence navíc hrála velkou roli i v jeho paměťových schopnostech. Je chytrý, vtipný, bystrý a má schopnost logického myšlení, což je velmi výhodné při práci se složitými informacemi. Tato výhoda mu pomohla lépe řídit a kontrolovat paměťový proces, čímž se zlepšila jeho paměť.
Mohamedova paměť však nebyla vrozená, ale zlepšila se tvrdou prací a cvičením. Často provádí trénování paměti, jako je opakované čtení, diktování a řeč, aby mu pomohl hlouběji porozumět a osvojit si znalosti.
Mohamedova paměť nebyla jen přirozený talent, byla zdokonalována tvrdou prací a cvičením. To ukazuje, že každý z nás může zlepšit svou paměť a zlepšit efektivitu učení a práce prostřednictvím učení a praxe. Pojďme, stejně jako Mohamed, aktivně tvrdě pracovat na neustálém zlepšování našich paměťových schopností, abychom dosáhli větších úspěchů v životě a práci! Je vidět, že potřebujeme zlepšit paměť a Cistanche deserticola dokáže výrazně zlepšit paměť, protože Cistanche deserticola dokáže regulovat i rovnováhu neurotransmiterů, jako je zvýšení hladiny acetylcholinu a růstových faktorů. Tyto látky jsou velmi důležité pro paměť a učení. Kromě toho může maso také zlepšit průtok krve a podpořit dodávku kyslíku, což může zajistit, že mozek dostane dostatek živin a energie, a tím zlepší mozkovou vitalitu a vytrvalost.

Kliknutím na možnost Know zlepšíte krátkodobou paměť
Pro tuto studii byla data shromážděna procházením webových stránek cestování pomocí selenu a šrotu. +e Hlavním účelem tohoto experimentu bylo analyzovat přesnost změnou parametrů word2vec a LSTM. +e výsledky ukázaly, že pomocí parametrů lze dosáhnout střední přesnosti 85,96, což ukázalo slibné výsledky.
Zhao a kol. [21] zavedli novou techniku pro analýzu sentimentů zákazníků z recenzí na webových stránkách elektronického obchodu. +e navrhovaná optimalizovaná technika „LocalSearch Improvised Bat Algorithm based Elman NeuralNetwork (LSIBA-ENN)“ zahrnuje čtyři kroky a detekuje polaritu a klasifikuje pocity recenzí. +e data pro tento výzkum byla shromážděna pomocí webového scrappingtool na webových stránkách elektronického obchodu k získání recenzí zákazníků.
Kromě předběžného zpracování dat tato studie využívá "LogTerm Frequency-based Modified Inverse Class Frequency (LTF-MICF) a Hybrid Mutation based Earth Warm Algorithm (HMEWA)" pro vážení termínů a výběr vlastností. +e navrhovaná metodika překonala ostatní základní techniky, pokud jde o přesnost předpovědi.
Jiang [22] navrhl model pro klasifikaci názorů získaných z e-commerce platformy Taobao.+e Studie využívá algoritmus strojového učení a také podpůrný vektorový stroj pro klasifikaci a vylepšenou optimalizaci roje částic (IPSO) k optimalizaci parametrů. Data +e pro studii byla shromážděna procházením komentářů z webu. +e experimentální výsledky ukázaly, že kombinovaný přístup SVM a IPSO měl vyšší přesnost. Většina stávajících modelů však trpí nadměrným přizpůsobením [23–25], nízkou rychlostí konvergence [26–28] a problémy s mizejícím gradientem [29–31].
3. Experimentální studie
Sekce +is poskytuje jasný přehled metodologie použité v projektu pro klasifikaci sentimentu. Technika +e, která byla použita, je síť Long Short-Term Memory, která se používá ke klasifikaci velkého počtu recenzí v databázi Amazon. +e použité vložení je word2vec, které bylo natrénováno na míru podle databáze.
Vyladění word2vec podle datové sady zlepšuje celkový výkon modelu. +e výhodou použití LSTM je, že poskytuje lepší výsledky i pro nestrukturovaná revizní data. Je schopen získat užitečné funkce pro zdroje obsahující dlouhodobé závislosti.
+e data jsou shromažďována z datové sady Amazon review, která je následně předzpracována. Vložení Word2vec tvoří důležitý krok v předběžném zpracování dat. Byla vytvořena data o vlaku a testech. Tréninková data +e jsou rozdělena do vlakových a ověřovacích datových sad. +e vlastní word2vec model je trénovaná databáze. Získá se vektor příznaků +e, který se pak použije jako vrstva pro vložení pro model LSTM.
Keras se používá pro sestavení sekvenčního modelu LSTM s maximálními vlastnostmi rovnými 50,000 a velikostí vložení rovnou 16. +emodel je poté trénován na 10 epoch. +e model je testován na základě výkonnostních metrik sklearn. +e proces získávání funkcí je znázorněn na obrázku 2.
3.1. Dataset. Aby bylo možné generovat přesné výsledky, použitá datová sada by měla být velká a obohacená. +e datová sada byla shromážděna ze sekce mobilních telefonů a příslušenství online v datové sadě Amazon Reviews (2018). +e dataset se skládá z celkem 938 261 recenzí, z toho 47901 unikátních produktů a 153124 unikátních uživatelských recenzí. +e dataset se zpočátku skládá ze 7 sloupců, jmenovitě hodnocení, které se liší od 1 do 5, čas recenze, ID recenzenta, ID produktu a shrnutí textu recenze.
Po odstranění duplikátů se datová sada skládá z 938254 záznamů a Tabulka 2 ukazuje úryvek původních záznamů datové sady.
3.2. Metodologie. Náš model word2vec jsme natrénovali na zakázku pro použití s modelem LSTM pro klasifikaci. Word2vec je vložení slova, které se používá k reprezentaci slova sbírkou několika výrazů vektoru. Je to pryč od mapování slova do vektorového prostoru. +e datová sada je načtena do datového rámce pandas. Pro vývoj customword2vec modelu je prvním krokem předzpracování dat.
Stačí se podívat na hodnocení a text recenze a všechno ostatní zahodit. +e text se vyčistí odstraněním interpunkce. Dílčí vzorek textu je vytvořen z téměř 200000 recenzí a metoda čistého textu je použita k převedení každé recenze na seznam slov. +je seznam slov nyní funguje jako vstup do modelu genismu word2vec.
Vytvořili jsme vlastní trénovaný model word2vec s přeskočením gramů a vytvořili jsme model s rozměry: velikost vektorů slova 100, velikost okna rovna 15, min{5}}počet 2 pro slova, která se v našem korpusu objevují méně než 2krát, záporná rovná 5 a vzorkovací frekvence rovna 1e−5. Všechny tyto dimenze jsme použili k vybudování slovní zásoby z našich recenzních vět.

Náš model word2vec trénujeme pro 1000 epoch. +cs počítáme ztrátu v každé epoše. +e ztráta je na začátku vysoká a směrem k poslední epoše klesá. +e ztráta atepocha 0 je 2239394.0 a ztráta v epoše 1000 je 11504.0.+e uložený model je poté znovu načten a jsou na něm prováděny operace.
Pokud například chceme v naší datové sadě najít slova podobná šumu, dostaneme zrušení a sluchátka.
Podobně můžeme také najít podobnost mezi určitými slovy, jako jsou sluchátka a sluchátka, což je {{0}}.48756, a podobnost mezi slovy nabíjení a nabíječka je 0,89264.
Pro zmenšení rozměrů našich dat jsme použili vizualizaci TSNE k vykreslení dat do dvou rozměrů. Nyní lze tyto slovní vektory použít pro další klasifikaci. +ese vložení jsou pak použity jako funkce pro další streamování.
3.2.1. Příprava dat pro LSTM. Naše datová sada se skládá z 938254 záznamů, přičemž většina recenzí má rozdělení skóre větší než 3. Nejprve jsme vypočítali počet slov pro každou recenzi. +e průměrný průměr se používá jako statistika pro zjištění průměrné délky recenzí. +e střední délka recenze je 44,59 a maximální délka je 4303.
Vytvořili jsme datovou sadu skládající se z recenzí o 100 nebo méně slovech. Recenze, jejichž délka je více než 20, ale méně než 100, jsou zařazeny do krátkých recenzí a restare jsou zařazeny do dlouhých recenzí. +e počet krátkých recenzí je 411313 a dlouhých recenzí je 100239. Hyperparametry použité v modelu jsou popsány v tabulce 3.
Dále jsme definovali hodnocení sentimentu jako pozitivní, pokud je hodnocení větší nebo rovno 3; jinak je hodnocení záporné. Zvažovali jsme text recenze a sentiment pro vytvoření sady dat vlaku. +e testovací data obsahují produkty, které mají alespoň více než 10 recenzí.
Po distribuci trénovací datový soubor sestával z celkem 203891 záznamů, z nichž 175910 patřilo do pozitivní třídy a 27981 do negativní třídy. +e testovací datový soubor sestával z celkem 686345 záznamů, z nichž 592118 patřilo do pozitivní a 94227 do negativní třídy.
V této studii jsme použili Keras k vytvoření našeho modelu LSTM, který zabírá maximálně 50,{1}} funkcí jako vstup do vrstvy pro vkládání. Dlouhá krátkodobá paměť (LSTM) je typ rekurentní neuronové sítě, která využívá vnitřní mechanismus, který reguluje tok informací.+tento vnitřní mechanismus se skládá z bran, které je třeba naučit tak, aby mohly přesně odfiltrovat irelevantní informace a zachovat užitečné informace.

Obrázek 3 ukazuje základní architekturu modelu LSTM v námi navržené metodologii.
Ht−1 a Xt jsou vstupy do jednotky LSTM; Ht−1, běžně označované jako krátkodobá paměť, přebírá jako vstup výstup z předchozích stavů. +e paměťová buňka nebo dlouhodobá paměť, Ct −1, pomáhá při přenášení relevantní informace během procesu sekvence. Architektura +eLSTM kombinuje tři brány: zapomenutou bránu, vstupní bránu a výstupní bránu. V jednotce LSTM se k získání těchto hradel používají funkce tanh a sigmoid.
Data vlaku +e byla poté rozdělena na data vlaku a ověřovací data stejné délky. +e délka dat byla vypočtena jako 101945 a rozdělení tříd bylo {1: 87955, 0:13990}. K vytvoření testovacích a ověřovacích datových sad vlaků TensorFlow potřebujeme převést naše data o vlaku do sekvencí. Vyplnili jsme je na maximální délku 100, takže všechny sekvence mají stejnou délku. +e vlakové a testovací štítky

For more information:1950477648nn@gmail.com






