Definire uno standard per la pubblicazione dei dati aperti. E dare alla Pa gli strumenti per aggiornarli costantemente. Ha ragione Simone Piunno, chief technology officer del team per la trasformazione digitale di Palazzo Chigi e candidato alla guida dell’Agid: i policy maker, i Cio della pubblica amministrazione , chi progetta servizi dentro la Pa non solo per i cittadini ma anche per le aziende hanno tutti bisogno di dati. In questi anni molto è stato fatto. Ma ha ragione anche Daniele Crespi, digital innovation manager di Lombardia Informatica quando si domanda perché le aziende sembrano poco attente alle potenzialità dell’uso di queste informazioni. Sicuramente serve aggiornamento e forse una regia unica per la governance degli open data. Proprio per questo un modello a cui guardare può essere quello dell’Istat.

L’utilizzo dei big data a sostegno delle produzioni statistiche ufficiali è entrata ormai da qualche anno nell’agenda degli istituti di statistica nazionali coordinati da Eurostat. E l’Istat, che su questa nuova frontiera di produzione s’è mossa da tempo, sta per cogliere i primi risultati concreti.

Entro entro breve verranno pubblicate sul suo sito web nuove statistiche sperimentali basate su enormi flussi di dati raccolti dai social network. Il primo indice sperimentale sarà il “Social mood on economy Index”, per l’analisi delle percezioni dei cittadini sull’andamento dell’economia, che verrà diffuso mensilmente a partire da metà settembre. L’indice fornisce misure ad alta frequenza – basate su una complessa metodologia di filtraggio, classificazione e aggregazione – dell’evoluzione del sentiment nazionale sui fenomeni di natura economica ed è derivato da campioni di tweet pubblici in lingua italiana catturati in streaming. Una fonte di dati che consente di acquisire tempestivamente e in modo non sollecitato informazioni sui comportamenti e le opinioni individuali. Non vengono utilizzati profili di utenti Twitter ma dati anonimizzati per la procedura di stima dell’indice.

Come per altri tipi di statistiche sperimentali, anche le informazioni raccolte sul sentiment che viaggia sui tweet potranno integrare l’ampio bagaglio di produzioni ufficiali diffuse dall’Istat, come ad esempio l’indicatore di fiducia dei consumatori prodotto mensilmente dall’Istat, che mantiene pienamente il suo ruolo strategico per l’analisi della congiuntura e del ciclo economico, a livello sia nazionale sia europeo.

Il cantiere Istat sull’utilizzo dei big data ha già prodotto risultati importanti su un altro fronte: le stime di inflazione. Dopo cinque anni di sperimentazione, dallo scorso mese di gennaio l’Istituto ha messo a regime l’utilizzo di “scanner data” come fonte che affianca le rivelazioni mensili tradizionali per la definizione dell’indice dei prezzi per il settore dei prodotti alimentari e per la casa. Il big data, in questo caso, consiste nell’utilizzo diretto e stabile dei dati provenienti dalle casse dei supermercati di 16 grandi grandi gruppi presenti in tutte le 107 province italiane e che rappresentano oltre il 90% del fatturato complessivo della grande distribuzione.

Ma i fronti aperti sono molteplici, come si diceva, e spaziano dalle nuove misurazioni per lo studio del traffico alle nuove mappature sulla copertura del suolo.

Open Street Map, per esempio, è un tool per l’individuazione di percorsi viari completamente open disponibile sul web ed è stato utilizzato per misurare l’estesa chilometrica della rete viaria italiana, ovvero la lunghezza di carreggiata (per senso di marcia) di ogni arco stradale, informazione finora non disponibile nelle statistiche ufficiali. Agli archi stradali ricavati da Open Street Map sono stati sovrapposti i layer delle Basi Territoriali Istat mediante strumenti di Geographical Information System. L’informazione resa disponibile, e tra breve sarà pubblicata in una nuova statistica sperimentale Istat, consente il calcolo di nuovi indicatori sull’incidentalità stradale – in cui al denominatore di tassi e rapporti viene posta la lunghezza delle carreggiate per arco stradale – in grado di fornire una migliore informazione sulla esposizione al rischio rispetto alle dimensioni abitualmente utilizzate (popolazione residente o flotta di veicoli circolanti). E sempre riguardo alla misurazione dei flussi traffico è stata avviata un’attività di studio delle immagini pubbliche di traffico attraverso un software sperimentale per la gestione delle misurazioni da sensori di traffico di fonti video e fotogrammi che consente il conteggio di veicoli per corsia, per carreggiata e per area.

Altro progetto di produzione big data in corso è quello sulla cartografia per la misurazione di statistiche di copertura del suolo prodotte ad elevato grado di granularità e che si basa sulla recente disponibilità di immagini satellitari gratuite ad alta risoluzione prevista nell’ambito del progetto Europeo di osservazione della terra Copernicus. Il progetto fa anche uso di altre fonti di dati territoriali, quali la cartografia vettoriale, per integrare le informazioni sulle classi di copertura del suolo. Al momento è stata completata la mappatura dell’Emilia Romagna. In questo contesto, Istat sta sviluppando test di algoritmi di deep learning per l’estrazione automatica di informazione dalle immagini.