Mark Zuckerberg non è stato l’unico a festeggiare il decimo compleanno di Facebook. Insieme a lui fanno festa le migliaia di ricercatori e aziende che lavorano sull’analisi dei contenuti pubblicati quotidianamente da oltre un miliardo di utenti, attivi su blog, social media, Twitter e social network. Una mole di dati multiforme, al cui interno si nascondono pietre tanto preziose, quanto difficili da setacciare e identificare. Come nella corsa all’oro nel Far West, i moderni ricercatori usano filtri sempre più sofisticati, per estrarre l’informazione più richiesta dal mondo del business: l’interpretazione delle opinioni dei consumatori. Comprendere ciò che pensa l’utente di un prodotto, di un leader politico, di un programma televisivo o di una azienda può fare una enorme differenza, soprattutto se l’analisi del sentiment avviene in tempo reale ed è capace di anticipare le tendenze in atto.

La sfida sul piano della ricerca si compie su due livelli: il primo è tecnologico, il secondo (e più impegnativo) è semantico. Da uno scenario in cui l’unico modo per interrogare l’opinione pubblica era il questionario, il sondaggio telefonico, il focus group, sottoposto a un campione statistico della popolazione, siamo passati oggi a poter godere di una enorme quantità di opinioni, espresse liberamente e  in ogni momento sul social web, da centinaia di milioni di persone su scala globale. Il punto di partenza resta la raccolta di 15.000 unità di contenuto prodotte online al secondo – tra recensioni, post, tweet, link e aggiornamenti di stato –  alle quali è necessario associare il contesto in cui vengono prodotte, per estrarre solo quanto di rilevante. Un filtro ulteriore si applica per categorizzare, identificando spam o inquinamenti di altro genere, in relazione alle finalità. I contenuti collezionati devono a questo punto poter essere ricercabili e integrati con le piattaforme commerciali che consentono di archiviarli, valutarli o analizzarli.

Interpretare un testo, attribuire un sentimento positivo o negativo da parte di chi l’ha pubblicato, in base alla combinazione di parole utilizzate, è il vero terreno su cui si misura l’avanzamento del “machine learning”, ovvero della capacità di automatizzare con successo un processo di analisi. I servizi più diffusi, che consentono di valutare quanto un prodotto sia apprezzato o criticato, si basano ancora fortemente sulla componente umana, che attribuisce i giusti pesi alle parole e all’ironia del testo: le macchine impazziscono di fronte a satira o a sarcasmo. D’altra parte l’annotazione dei diversi pesi può variare a seconda dei punti di vista degli operatori, in assenza di uno standard condiviso, generando potenziali diverse interpretazioni, a partire dagli stessi dati.

Un maggiore volume può rivelarsi positivo, aiutando ad esempio la macchina ad apprendere modi di dire, che si ripetono nel tempo e nelle modalità, migliorando la capacità di predire l’umore del mercato e in ultimo l’andamento dei corsi azionari. Dopo Bloomberg, Reuters ha recentemente integrato il sentiment sui titoli più diffusi, con un grafico che riporta il flusso di tweet positivi o negativi, estratti e analizzati da Twitter, all’interno dell’offerta della piattaforma di trading. La finanza è solo uno degli ambiti, insieme a salute pubblica, intrattenimento, politica e molti altri settori a godere dell’evoluzione della tecnologia. Dal 15 marzo Twitter offrirà gratuitamente importanti dataset a soggetti accademici grazie a nuove borse di ricerca, ulteriore segno della vitalità del settore.