Social Media Research 2017-11-06T11:39:54+00:00

Project Description

Negli ultimi anni, il settore delle ricerche di mercato ha subito una vera e propria rivoluzione, anche a seguito della continua evoluzione tecnologica del web, la sua crescente viralità e l’uso esponenziale dei social media. Se da un lato, infatti, le ricerche di mercato mantengono sempre un ruolo fondamentale nei
processi decisionali delle aziende, dall’altro non possono più prescindere dall’utilizzo del web, in generale, e ancor di più dei social media, quali canali privilegiati per la rilevazione e l’integrazione di dati ed informazioni. Tuttavia, il monitoraggio, la ricerca e la raccolta di contenuti e opinioni sul web può non essere affatto semplice, se si considerano il numero elevato di siti e l’enorme volume di contenuti non strutturati, non sempre codificabili (messaggi lunghi e complessi nei forum o nei blog, uso di abbreviazioni, neologismi ed espressioni gergali, emoticon, misspelling, ecc). La vastità e varietà tipiche dei big data, in estrema sintesi, hanno impattato in modo ineludibile anche il mondo delle ricerche di mercato tradizionali, portando ad un ribaltamento dei paradigmi a cui eravamo, e siamo, classicamente abituati in qualità di “market researcher tradizionali”.
L’idea di questo lavoro, svolto come project work nell’ambito del Master BI & BigData Analytics, nasce da queste considerazioni e si pone come obiettivo quello di descrivere il processo svolto per la realizzazione di una Social Media Research, mirata principalmente ad integrare i risultati di una ricerca di mercato classica con i contenuti generati sui social media e sul web, in genere. La ricerca classica, volta a comprendere la percezione dei consumatori verso un brand e le dinamiche del processo decisionale nella scelta di una marca, è stata arricchita, in un secondo momento, da un’indagine social. La ricchezza e l’autenticità dei contenuti social sono state sfruttate per esplorare, attraverso la voce diretta e spontanea dei consumatori, le opportunità e le sfide identificate per il brand con la survey classica.
L’intero progetto, svolto presso Kantar TNS, ha visto coinvolti me, in prima in persona, per la parte relativa all’estrazione dei contenuti dal web e al data cleaning, e un ricercatore, per la parte di analisi e presentazione dei risultati. Per la realizzazione del progetto sono stati utilizzati strumenti e piattaforme
messe a disposizione dall’azienda per l’estrazione dei contenuti da analizzare, mentre l’analisi dei testi e la loro validazione sono state svolte in modo classico, attraverso tagging manuale dei contenuti, su una piattaforma di crowdsourcing.
L’obiettivo del progetto è da ricondurre principalmente alla familiarizzazione e all’utilizzo degli strumenti aziendali per l’estrazione e l’analisi di contenuti da fonti online di natura principalmente social, a supporto di quanto emerso dall’indagine tradizionale. Dove possibile, e solo come esercizio, sono stati utilizzati parallelamente, altri strumenti, per verificare le eventuali potenzialità in termini di automazione e di miglioramento dell’efficienza nei processi di data
cleaning e di analisi dei contenuti estratti, soprattutto.
In questo documento verrà illustrato in dettaglio il processo seguito per la realizzazione del progetto nelle sue prime fasi (definizione del topic, estrazione e cleaning), mentre l’analisi e la presentazione dei risultati saranno descritti brevemente e solo a titolo esemplificativo, in quanto esulano dall’oggetto e  dall’obiettivo del progetto stesso.
Sarà invece descritto l’utilizzo di strumenti di text mining per la classificazione automatica dei testi, sia in relazione ai contenuti che al sentiment, nel tentativo di confrontarne l’efficacia rispetto a sistemi classici, basati sulla lettura dei documenti – solitamente un loro sotto-insieme – per l’assegnazione di un tag e del sentiment (tradizionale processo di codifica).
Il primo tentativo per rendere più efficiente il processo di content analysis ed estrarre in modo automatico informazioni dai testi, è stato quello di individuare le entità presenti nei post e la loro ricorrenza nell’insieme dei test analizzati. Per l’esplorazione dei contenuti e per un’immediata verifica dell’eventuale presenza di attributi ricorrenti off topic è stato effettuato un processo di clustering.
Infine il sentiment, assegnato manualmente su un sotto-campione di post, è stato confrontato con i risultati di due sistemi di assegnazione automatica.
Dai tentativi descritti sopra, è emerso che, se gli strumenti di text analytics possono essere efficaci in materia di theme e content detection, molto meno efficaci risultano nell’assegnazione del sentiment, presentando risultati troppo divergenti per essere ritenuti accettabili, rispetto ad un approccio manuale, più affidabile seppur più dispendioso. Possibili sviluppi futuri di questo progetto includono, la sperimentazione Facebook Topic Data per la raccolta di dati privati da Facebook, in modo anonimo ed aggregato (ad esclusione di Messenger) e l’utilizzo del dataset codificato come set di training per addestrare il sistema (Rapid Miner o Ascribe) a classificare correttamente i post ai quali non è stato ancora assegnato il sentiment.

Project Details