Perché un dataset? Perché un dataset oggi è il cibo fondamentale per le reti neurali e, quindi, per lo sviluppo di algoritmi di machine learning e deep learning. Il dataset quanto più è ampio, strutturato e marcato correttamente, tanto più è in grado di fornire prestazioni alle macchine, soprattutto nell’ambito del riconoscimento di oggetti e immagini. Come vede una macchina è direttamente proporzionale a come gli insegniamo a vedere, e il primo passo in questa direzione è fornirgli le immagini sulle quali fare training. Il recentissimo Epic-Kitchens si muove proprio in questa direzione… si tratta del più ampio dataset per computer vision di immagini tratte da camere indossabili. E’ quindi un dataset dalla struttura specifica e dall’importanza strategica: le immagini che vengono date in pasto alle reti neurali sono quelle dal punto di vista della persona e permettono, quindi, una decifrazione dell’immagine che tiene conto degli oggetti, ma anche dell’ambiente in cui essi stanno e dell’attenzione che ne viene posta. Partendo dal presupposto che la visione è sempre una visione incarnata e ambientale, queste immagini permettono alla macchina di crearsi una “ecologia della visione” (secondo quanto studiato da Bateson, considerato uno dei padri della computer vision) che si focalizza anche sulle relazioni con lo spazio, con gli altri oggetti e con le interazioni possibili. Il dataset è il frutto di una collaborazione internazionale tra università, nello specifico Bristol, Catania e Toronto. Il fine è quello di offrire immagini per l’apprendimento automatico di interazioni di oggetti nella vita di tutti i giorni. Come mi spiega Giovanni Maria Farinella (IPLAB del Dipartimento di Matematica dell’Università di Catania) “Epic-Kitcens permette l’individuazione di specifici oggetti da immagini, la comprensione delle interazioni tra utente e oggetti osservate in un video e, infine, la predizione di interazioni future.”

“La visione in prima persona – spiega Dima Damen che ha guidato il team di ricercatori – è stata ostacolata per anni dall’indisponibilità dei big data”, ma ora un dataset è stato approntato e, pur essendo all’inizio, può già contare su 11.5 mila immagini, registrate da 32 individui nelle loro case, per diversi giorni consecutivi. Il set di dati è completamente annotato per azioni e oggetti in tutti i video. Sono stati riportati circa 40.000 esempi di azioni e mezzo milione di oggetti.

Va sottolineato come la complessità delle sfide dell’informatica contemporanea non può che essere affrontata, non solo da campi più ampi e limitrofi (nel caso della computer vision, le neuroscienze e la psicologia, oltre all’ottica e la biologia), ma anche da reti internazionali in cui l’Italia può giocare un suo ruolo fondamentale. “Per il progetto – ci spiega Farinella – IPLAB ha contribuito nell’acquisizione di dati visuali da soggetti volontari e nella definizione di una ‘challenge’ di ‘visual action anticipation’ legata al dataset. Il challenge mira alla predizione delle azioni effettuate dall’utente prima ancora che accadano. Inoltre, ci siamo occupati della produzione dei risultati sperimentali preliminari (le cosiddette ‘baseline’) a corredo del dataset e della definizione dei protocolli di valutazione.” Il know how messo in campo da Catania è frutto di anni di lavoro sulla EgoCentric e Firts Person Vision che considera il rapporto tra l’occhio e la visione, analizzando quest’ultima “in prima persona” e quindi ponendo l’attenzione sul rapporto tra chi guarda e ciò che vede.

Epic-Kitchens sfrutta anche questa conoscenza per fornire un’idea di vista computazionale che comprende anche le relazioni all’interno delle immagini e le interconnessioni con le nostre sensorialità. La sfida è, da una parte, creare sistemi sempre più complessi, dall’altra, lavorare sulla “prediction”, quindi non tanto sui dati e sui fatti (riconoscere un oggetto), bensì provare a riconoscere le azioni e i movimenti di un oggetto, le azioni e le ripercussioni. Anticipare quella che potrebbe essere una nostra partecipazione a un ambiente e magari marcare le criticità. “Le ricadute di tali ricerche nel mondo industriale – secondo Farinella – concernono, tra le altre, settori legati alla sicurezza sul lavoro degli operatori. In particolare, un sistema capace di prevedere interazioni con oggetti potrebbe fornire assistenza a operatori che svolgono mansioni ad alto rischio e devono intraprendere interazioni pericolose con determinati oggetti.” Ma i settori potenzialmente investiti sono diversi, come quello dell’assistenza medica… “Si possono immaginare scenari in cui una persona anziana che non riesce più a ricordare come interagire con uno specifico oggetto possa essere aiutata da un sistema che ‘vede’ dal suo punto di vista e suggerisce come si utilizza lo stesso.”