Sprout Engineering

Analýza sentimentu 101: Jak tým datových věd společnosti Sprout vytvořil hybridní model

Jak vám řekne kdokoli, kdo někdy měl vztah, lidské emoce jsou složitým konceptem. To platí zejména pro obchodníky, kteří se snaží porozumět kvalitativním výhodám - hodnotě, která přesahuje základní funkčnost - jejich produktu nebo služby. Není těžké pochopit, co váš produkt dělá, ale víte, jak se cítí vaši zákazníci?

Pokud byste pomocí analýzy sentimentu sociálního naslouchání destilovali nefiltrované úvahy sociálních médií cílového publika do akčních strategických poznatků, využili byste to. Vezmeme všechny sociální data dostupná na Twitteru a jeho kategorizace na pozitivní, negativní nebo neutrální sentiment je hlavním úkolem a neexistují dvě stejné metody. Proto společnost HASHTAGS vytvořila hybridní systém analýzy sentimentu, který kombinuje dva primární přístupy, seznamy pravidel a strojové učení.

Seznamy pravidel

Jedním z nejjednodušších způsobů řešení analýzy sentimentu je použití pravidel nebo slovníků vytvořených člověkem. S tímto přístupem se systém spoléhá na seznam slov nebo frází, které přímo mapují konkrétní sentiment. Například jakýkoli Tweet, který obsahuje slovo „vysoká pětka“, může být označen jako pozitivní, zatímco Tweet obsahující „hrozný“ by byl negativní. Systémy, jako je tento, jsou vysoce přizpůsobitelné a lze je rozšířit o tisíce pravidel slov a frází.

Nevýhodou je, že systémy pravidel zápasí s Tweety, které odpovídají protichůdným pravidlům, například „Film nebyl tak hrozný, jak jsem předpokládal.“ Zde může být „hrozný“ označen jako negativní, zatímco „očekávaný“ bude pozitivní. Konfliktní pravidla označují Tweet jako neutrální, zatímco někteří lidští čtenáři by jej interpretovali jako mírně pozitivní a jiní mírně negativní.

Dalším omezením systémů založených na pravidlech je spoléhání se na lidské úsilí a porozumění. Jazyk se rychle vyvíjí (zejména na Twitteru) a systém založený na pravidlech vyžaduje, aby někdo poskytoval stálý proud nových výrazů a frází. Aktualizace systému sentimentu není vždy nejvyšší prioritou a systém může rychle zastarat. I při ostražitém monitorování může být obtížné identifikovat měnící se jazykové trendy a určit, kdy je třeba přidat nová pravidla.

Strojové učení

Používají se pokročilejší systémy analýzy sentimentu Strojové učení (ML) techniky (někdy také nazývané umělá inteligence nebo Zpracování přirozeného jazyka ). Machine Learning je skupina technik, které používají statistiky a pravděpodobnost k identifikaci složitých vzorů, které lze použít k označení položek.

Na rozdíl od systémů založených na pravidlech jsou systémy ML dostatečně flexibilní, aby detekovaly podobnosti, které člověku nejsou okamžitě zřejmé. Při pohledu na mnoho a mnoho příkladů se systém učí vzory, které jsou obvykle spojeny s pozitivními, negativními nebo neutrálními náladami.

anděl číslo 47

Například systém analýzy sentimentu ML může zjistit, že tweety, které obsahují slovo „déšť“ a končí jedním vykřičníkem, jsou negativní, zatímco tweety s „deštěm“ a dvěma vykřičníky jsou pozitivní. Člověk si nemusí všimnout tohoto vzoru nebo pochopit, proč k němu dochází, ale systém ML jej může použít k vytváření velmi přesných předpovědí.

I když systémy Machine Learning mohou přinést skvělé výsledky, mají několik nedostatků. Když je v jazyce spousta rozmanitostí, může být pro systém ML obtížné prohledávat hluk a vybírat vzory. Pokud existují silné vzory, mohou zastínit méně obvyklé vzory a způsobit, že systém ML bude ignorovat jemné narážky.

Sproutův přístup

K vybudování našeho systému analýzy sentimentu jsme navrhli hybridní systém, který kombinuje to nejlepší z přístupu založeného na pravidlech i strojového učení. Analyzovali jsme desítky tisíc tweetů, abychom identifikovali místa, kde se modely ML potýkají, a zavedli jsme strategie založené na pravidlech, abychom pomohli tyto nedostatky překonat.

Doplněním statistických modelů o lidské porozumění jsme vytvořili robustní systém, který funguje dobře v široké škále nastavení.

Vše o přesnosti

Na první pohled se zdá, že analýza sentimentu je docela přímočará - stačí se rozhodnout, zda je Tweet pozitivní, negativní nebo neutrální. Lidský jazyk a emoce jsou komplikované a odhalování sentimentu v Tweetu odráží tuto složitost.

Zvažte tyto tweety. Jsou pozitivní, negativní nebo neutrální?

https://twitter.com/alex/status/917406154321420289

Kamarád právě požádal o 6 výstřelů espressa ve Starbucks ... ŠEST. Freaking SIX !!

- Simone Eli (@SimoneEli_TV) 31. října 2017

Ve svých odpovědích se můžete cítit sebejistě, ale je pravděpodobné, že s vámi nebudou všichni souhlasit. Výzkum ukázal, že lidé se shodují pouze na sentimentu Tweety 60-80% času.

Možná jste skeptičtí. Byli jsme také.

Aby to mohli otestovat, dva členové našeho týmu Data Science označili přesně stejnou sadu 1 000 tweetů jako pozitivní, negativní nebo neutrální. Napadlo nás, „že každý den pracujeme s tweety; pravděpodobně budeme mít mezi námi téměř dokonalou shodu. “

Vypočítali jsme výsledky a poté jsme je dvakrát a třikrát zkontrolovali. Výzkum byl přímý - shodli jsme se pouze na 73% tweetů.

Výzvy v analýze sentimentu

Výzkum (spolu s naším malým experimentem) ukazuje, že analýza sentimentu není přímá. Proč je to tak složité? Pojďme se projít několika z největších výzev.

Kontext

Tweety jsou malým momentem v čase. Zatímco někteří jsou sami, tweety jsou často součástí probíhající konverzace nebo referenčních informací, které mají smysl, pouze pokud znáte autora. Bez těchto vodítek může být těžké interpretovat autorovy pocity.

Dělám to také lžičkami na kávu.

- Renée Barrow (@RmBarrow) 14. října 2017

Sarkasmus

Detekce sarkasmu je další příchutí kontextové výzvy. Bez dalších informací si systémy analýzy sentimentu často pletou doslovný význam slov s tím, jak jsou zamýšleny. Sarkazmus je aktivní oblastí akademického výzkumu, takže se v blízké budoucnosti můžeme setkat se systémy, které rozumějí snarkům.

Srovnání

Sentiment se také stává složitějším, když Tweety porovnávají. Pokud provádím průzkum trhu se zeleninou a někdo Tweety: „Mrkev je lepší než squash,“ je tento Tweet pozitivní nebo negativní? Záleží na vaší perspektivě. Podobně by někdo mohl tweetnout: „Společnost A je lepší než společnost B.“ Pokud pracuji pro společnost A, je tento Tweet pozitivní, ale pokud jsem ve společnosti B, je negativní.

Emojis

Emodži jsou vlastním jazykem . Zatímco emodži rádi vyjadřují docela zřejmý sentiment, jiné jsou méně univerzální. Při vytváření našeho systému analýzy sentimentu jsme se podrobně zabývali tím, jak lidé používají emodži, a zjistili jsme, že i běžné emodži mohou způsobit zmatek. se téměř stejně používá jako „tak šťastná, že pláču“ nebo „tak smutná, že pláču.“ Pokud se lidé nemohou dohodnout na významu emodži, nemůže to udělat ani systém analýzy sentimentu.

Definování neutrálu

Ani „neutrální“ sentiment není vždy přímočarý. Zvažte titulek zprávy o tragické události. I když všichni souhlasíme s tím, že událost je hrozná, většina novinových titulků má být věcná, poučná. Systémy pro analýzu sentimentu jsou navrženy tak, aby identifikovaly emoce autora obsahu, nikoli odpověď čtenáře. I když se může zdát divné vidět hrozné zprávy označené jako „neutrální“, odráží to záměr autora sdělovat věcné informace.

Systémy analýzy sentimentu se také liší v tom, jak neutrální je definován. Někteří považují neutrální za kategorii všeho pro každý Tweet, kde systém nemůže rozhodovat mezi kladným a záporným. V těchto systémech je „neutrální“ synonymem pro „nejsem si jistý.“ Ve skutečnosti však existuje mnoho tweetů, které nevyjadřují emoce, například příklad níže.

'Venti' má obvykle dva výstřely espressa, ale tento zákazník požádal o 14 https://t.co/jzOi93RRd9

- TAXI (@designtaxi) 30. října 2017

Náš systém výslovně klasifikuje neemotivní tweety jako neutrální, namísto neutrálního jako výchozí označení pro nejednoznačné tweety.

Vyhodnocení analýzy sentimentu

S tolika výzvami v analýze sentimentu se vyplatí udělat si domácí úkol, než investujete do nového nástroje. Prodejci se snaží pomoci překonat složitost tím, že se zaměřují na statistiky o přesnosti svého produktu. Přesnost není vždy srovnání mezi jablky. Pokud plánujete použít přesnost jako měřicí tyč, je třeba se zeptat na několik věcí.

Je hlášená přesnost větší než 80%?
Vzhledem k tomu, že lidé navzájem souhlasí pouze 60–80% času, neexistuje způsob, jak vytvořit soubor testovacích dat, s nímž bude každý souhlasit, obsahující „správné“ štítky sentimentu. Pokud jde o sentiment, „správné“ je subjektivní. Jinými slovy, neexistuje zlatý standard, který by se používal při testování přesnosti.

význam 611

Horní hranicí přesnosti systému analýzy sentimentu bude vždy dohoda na úrovni člověka: přibližně 80%. Pokud prodejce požaduje přesnost více než 80%, je dobré být skeptický. Současný výzkum naznačuje, že i 80% přesnost je nepravděpodobná; špičkoví odborníci v oboru obvykle dosahují přesností v polovině 60. let.

Kolik kategorií sentimentu se předpovídá?
Někteří prodejci hodnotí přesnost pouze u tweetů, které byly lidskými hodnotiteli identifikovány jako definitivně pozitivní nebo negativní, s výjimkou všech neutrálních tweetů. Je mnohem snazší, aby se přesnost systému zdála velmi vysoká při práci se silně emocionálními tweety a pouze se dvěma možnými výsledky (pozitivní nebo negativní).

Ve volné přírodě je však většina tweetů neutrální nebo nejednoznačná. Když je systém hodnocen pouze na základě kladných a záporných hodnot, je nemožné vědět, jak dobře se systém vyrovná s neutrálními tweety - většinou s tím, co skutečně uvidíte.

Jaké typy tweetů jsou zahrnuty v jejich testovací sadě?
Systém analýzy sentimentu by měl být postaven a testován na tweetech, které jsou reprezentativní pro reálné podmínky. Některé systémy pro analýzu sentimentu jsou vytvářeny pomocí tweetů specifických pro doménu, které byly filtrovány a vyčištěny, aby bylo systému co nejjednodušší porozumět.

Například prodejce mohl najít již existující datovou sadu, která obsahuje pouze silně emotivní tweety o leteckém průmyslu, s vyloučením jakýchkoli spamů nebo tweetů mimo téma. To by způsobilo vysokou přesnost, ale pouze při použití na velmi podobných tweetech. Pokud pracujete v jiné doméně nebo dostáváte tweety mimo téma nebo spam, uvidíte mnohem nižší přesnost.

Jak velká byla testovací datová sada?
Systémy pro analýzu sentimentu by měly být hodnoceny na několika tisících tweetů, aby bylo možné měřit výkon systému v mnoha různých scénářích. Skutečnou míru přesnosti systému nezískáte, pokud je systém testován pouze na několika stovkách tweetů.

Tady ve Sproutu jsme postavili náš model na kolekci 50 000 tweetů získaných z náhodného vzorku z Twitteru. Protože naše tweety nejsou specifické pro doménu, náš systém analýzy sentimentu funguje dobře v široké škále domén.

Dále vytváříme samostatné předpovědi pro pozitivní, negativní a neutrální kategorie; neaplikujeme pouze neutrál, když selžou jiné předpovědi. Naše přesnost byla testována na 10 000 tweetů, z nichž žádný nebyl použit k vytvoření systému.

Podívejte se na Sproutovu analýzu sentimentu živě s posluchači

Celý výzkum na světě nenahrazuje hodnocení systému z první ruky. Vyzkoušejte náš nový systém analýzy sentimentu v naší nejnovější sadě nástrojů pro sociální poslech, Posluchači a uvidíte, jak to u vás funguje. Nejlepší nástroj pro poslech v sociální síti je ten, který vyhovuje vašim potřebám a pomáhá vám získat ze sociální sítě větší hodnotu. Pomůžeme vám začít dnes.

Sdílej Se Svými Přáteli:

Zjistěte Svůj Počet Andělů