Alle ore 22.00 di lunedì 19 gennaio abbiamo eseguito un test per misurare la credibilità del tweet del 17 gennaio del Presidente Gasparri “#VanessaeGreta sesso consenziente con i guerriglieri? E noi paghiamo!”. La risposta è stata chiara: mentre i retweet di quel testo hanno un’attendibilità media o bassa (2 o 3 punti su una scala di 7), chi invece ha inoltrato quel cinguettio criticandolo ha acquistato una credibilità media di sei punti. L’esperimento è stato eseguito su TweetCred, un’applicazione disponibile su internet all’indirizzo http://twitdigest.iiitd.edu.in/TweetCred.

TweetCred è un esempio di un filone di ricerca che mira a creare strumenti automatici per verificare la verità o l’attendibilità delle informazioni diffuse sulla rete. Questo particolare programma è il frutto di una collaborazione tra l’Istituto indiano di Information Technology Indraprastha di Delhi e quello di ricerca sui computer del Qatar a Doha. Come spiega il coordinatore del progetto Aditi Gupta, “il punteggio è calcolato sulla base di un algoritmo che determina la credibilità di un tweet basandosi su più di 45 caratteristiche”, tra cui le proprietà del tweet stesso e quelle di chi lo ha lanciato, a partire dai suoi follower.

Il software è ancora in sviluppo, ma già oggi il 43 % degli utenti che lo ha testato concorda con la valutazione proposta da TweetCred, e il 25% ritiene che tale valutazione si discosti da quella reale per non più di due punti sulla scala di sette.

Il team di Gupta  sta approntando una nuova versione del programma “che identificherà altri fattori oltre all’attendibilità” dei singoli tweet, come ad esempio il “contenuto fattuale relativamente a un evento” o l’essere stati scritti da un testimone oculare di un avvenimento.

La possibilità di realizzare un sistema che permette di distinguere in automatico il vero dal falso è anche l’obiettivo perseguito da un team di ricercatori dell’Università dell’Indiana e dell’Istituto portoghese Gulbenkian de Ciencia, a Oeiras.

Per misurare la verità delle frasi scritte su web  gli studiosi in questo caso hanno costruito un “grafo della conoscenza” nel quale, come spiega  l’italiano che coordina il progetto Giovanni Luca Ciampaglia, “i nodi sono entità (Aristotele, Stati Uniti, gatto), mentre le connessioni sono dei predicati (come «è un», «sposato con», «nato a»…)”. “Le asserzioni affidabili – prosegue – sono ricavate dalle cosiddette schede infobox di Wikipedia. Per esempio, dalla pagina sul gatto possiamo estrarre che «il gatto appartiene all’ordine dei carnivori» dove gatto e carnivoro sono entità soggetto e oggetto” rappresentate dai nodi.

Partendo da questo grafo, che contiene circa 3 milioni di nodi e 23 milioni di collegamenti,  è possibile misurare la “distanza semantica” fra due oggetti: “Se per connettere due nodi devo passare attraverso concetti molto generici (come  Animale o Essere Umano), la credibilità dell’asserzione è più in dubbio”.

Se con questo sistema, ad esempio, si chiede di calcolare la probabilità che la frase “Barak Obama è musulmano” sia vera, si ottiene un valore basso, mentre l’asserzione “Roma è una capitale” ottiene un valore maggiore.

Secondo Ciampaglia, “l’analisi dei contenuti può essere affiancata a quella della credibilità delle fonti”, sul modello di quanto realizzato da TweetCred. Ed è così che il suo team sta lavorando a un sistema “per determinare se un utente di Twitter sia in realtà un “bot” creato per influenzare opinioni”.

Per Ciampaglia “l’analisi dei contenuti promette bene come idea, ma siamo ancora lontani da poterla usare in un contesto pratico e/o industriale”. Una delle sfide di queste ricerche, conclude il ricercatore italiano, è “capire se i sistemi automatici di fact-checking in generale siano efficaci nel contrastare la diffusione delle “bufale,” sempre più endemiche sui social media”. Un modo, anche, per evitare di agire da cassa di risonanza di informazioni non verificate su Twitter.