Scandalo MegaFace: milioni di foto usate per l’AI senza consenso

MegaFace

Un nuovo scandalo travolge i colossi dell’information technology. Milioni di foto (anche di minori) sono state infatti utilizzate per allenare la cosiddetta intelligenza artificiale, dopo essere state immesse in un database chiamato MegaFace. A rivelarlo il New York Times che racconta di come MegaFace abbia analizzato le somiglianze di quasi 700mila individui, database scaricato ed utilizzato da dozzine di aziende per addestrare i loro algoritmi di identificazione dei volti.

Allenare l’intelligenza artificiale

Tra queste Google, Amazon, Mitsubishi Electric, Tencent e SenseTim che ora rischiano di essere citate in giudizio da migliaia di persone. Come spiega il Nytimes, di norma negli Stati Uniti per questo tipo di ricerca non è obbligatorio chiedere il permesso degli aventi diritto ma a finire in MegaFace sono stati anche i volti di americani residenti nell’Illinois, protetti da una delle più severe leggi statali sulla privacy: il Biometric Information Privacy Act approvato nel 2008. La norma prevede infatti sanzioni (fino a 5mila dollari) per chiunque utilizzi senza consenso impronte digitali o scansioni di foto di facce.

Inizialmente il progetto di ricerca, avviato negli anni ’90, coinvolgeva solo individui consapevoli che i loro volti sarebbero stati usati per migliorare l’intelligenza artificiale. I volontari infatti si presentavano e venivano fotografati in diverse angolazioni.

Successivamente però si è reso necessario raccogliere volti su ampia scala per implementare più velocemente l’algoritmo. Sono cominciati quindi ad essere raccolti prima i volti “rubati” da video di sorveglianza presenti nei campus universitari e successivamente le foto che gli utenti caricavano nei più disparati social media, come Flickr.

MegaFace

Nel 2014 Yahoo presenta al mondo “la più grande raccolta multimediale pubblica” di foto e video (circa 100 milioni), specificando che le immagini erano state prese da Flickr, una sua consociata. Nel 2015, due professori di informatica dell’Università di Washington (Ira Kemelmacher-Shlizerman e Steve Seitz) hanno avuto così l’idea di usare i dati di Flickr per creare MegaFace.

Il New York Times riferisce inoltre che la creazione di MegaFace sarebbe stata finanziata da Samsung, dal Google Faculty Research Award e dal National Science Foundation / Intel.

Poco dopo l’ateneo ha organizzato il “MegaFace Challenge”. Ai gruppi di lavoro che hanno scaricato il database è stato imposto di accettare l’utilizzo solo per “ricerche non commerciali e per scopi educativi” ma tra questi c’erano anche organizzazioni come Google, Tencent, SenseTime e NtechLab.

MegaFace è stato poi in seguito citato anche da ricercatori di Amazon e, in base a quanto si legge su megapixels.cc, Mitsubishi Electric e Philips. Il New York Times sottolinea infatti che “la tecnologia di SenseTime è stata utilizzata per monitorare la popolazione uigura in Cina, mentre quella di NtechLab è stata usata per identificare attori pornografici e stranieri all’interno della metropolitana in Russia“.

Foto identificabili

June Jin, Chief Marketing Officer di SenseTime, ha però prontamente replicato assicurando di aver utilizzato il database MegaFace solo a fini accademici. Anche Nikolay Grunin, portavoce di NtechLab, dichiara che il loro algoritmo “non è mai stato addestrato su queste immagini”. Google invece per il momento si è rifiutato di commentare.

A rendere il tutto ancor più inquietante il fatto che, anche se MegaFace non contiene i nomi delle persone ritratte, si può risalire ad essere facilmente. Poiché le immagini sono in licenza Creative Commons ogni foto include infatti un identificatore numerico che rimanda all’account Flickr da cui sono state tratte.