Il Primo Passo per un’AI di cui Fidarsi? Un Training Set In Regola
Milleottocento quarantanove.
Londra, più esattamente Buckingham Palace.
La regina Vittoria e il suo marito, il principe Alberto, avevano un hobby.
Quando ne avevano la possibilità, erano soliti intrattenersi facendo alcuni schizzi dei loro parenti e dei loro domestici.
Queste illustrazioni erano così ben fatte che il Principe Alberto si decise a stamparle, in via assolutamente privata, in modo che le potessero donare ad amici e familiari.
In qualche modo, però, il catalogo contenente questi disegni finì tra le mani di William Strange, un londinese che lavorava come stampatore ed editore. Senza chiedere alcun permesso al principe Alberto, lui pubblicò il catalogo.
Una volta che il caso fu portato alla Corte di Cancelleria, il giudice Lord Chancellor Cottenham valutò che ci fosse stata una “violazione della fiducia” nel comportamento di William Strange nei confronti del principe Alberto.
Questo caso è considerato una pietra miliare nell’evoluzione del concetto di privacy e di copyright.
Ironicamente, centosettant’anni più tardi, la violazione di privacy e di copyright vanno ancora a braccetto.
Si tratta ancora, in entrambi i casi, di proprietà intellettuale – anche se oggi non si tratta più di disegni, ma di fotografie digitali in HD sotto licenza Creative Commons.
Infatti, specialmente nelle società occidentali, quando un nuovo sviluppo tecnologico trova spazio e diffusione, portando nuovi modi di poter fare le cose, capita che, come conseguenza, presto o tardi, si riscontra anche l’ascesa di nuovi diritti e regolamentazioni, esattamente dove quelle nuove tecnologie operano.
Questo è vero per l’industria dell’editoria durante la sua fioritura durante il XIX secolo, e nello stesso periodo si rileva un forte sviluppo del diritto d’autore.
È stato così anche per i giornali scandalistici, caratterizzati da titoli sensazionalistici volti a catturare subito l’attenzione, e per le macchine fotografiche a scatto divenute accessibili al grande pubblico negli Stati Uniti, che nel 1890 Warren e Brandeis svilupparono per la prima volta il diritto alla privacy a partire da osservazioni del calibro di “le fotografie istantanee e l’industria giornalistica hanno invaso le sacre aree della vita privata e domestica”.
Se solo avessero visto Facebook e Instagram…
E cosa è successo al giorno d’oggi?
In questo articolo ho mostrato come un progetto avente come base un’intelligenza artificiale è stato allenato con dati personali speciali di persone europee, come dati biometrici di volti umani all’interno del training set. Anche se non era richiesto alcun consenso a quelle persone dal momento che, il progetto è stato fatto a scopi di ricerca scientifica (ammesso e non concesso, naturalmente), gli autori non hanno preso le misure da seguire in ambito di ricerca e richieste dal GDPR all’art.89.
Il punto è che quella non era l’unica violazione legale sotto la pagina thispersondoesnotexist.com.
La pagina di GitHub del progetto infatti riporta che “sono state raccolte soltanto le immagini con licenze d’uso permissive”. Infatti, nella stessa pagina è possibile dare un’occhiata al file Metadata, che include tutte le informazioni per ciascuna immagine come il nome dell’autore, l’URL dell’immagine su Flickr, i dettagli della licenza d’uso per ciascuna foto ecc.
Non so come abbiano fatto a scaricare in maniera così massiccia 70.000 immagini da Flickr, ma dando un’occhiata alla cartella pubblica all’interno del loro Google Drive sembra che non ci siano state molte regole. Qualcosa come – finchè l’immagine è in HD, contiene un volto umano e ha una lasca autorizzazione all’uso, può andare bene per il progetto e può entrare a far parte del dataset. In ogni caso, se c’è un problema, se ne occuperanno i nostri programmi – giusto?
Sbagliato.
Se solo il mondo fosse così semplice…
Questo perché su Flickr, accanto a profili di utenti che caricano semplicemente la loro foto così com’è, altri utenti – come i fotografi professionisti, ma qualche volta anche quelli amatoriali – caricano le proprie immagini dotandole di segni distintivi e di watermark.
Cos’è un watermark?
Ricordate quando navigando su Google Immagini avete finalmente trovato una bella fotografia con un simbolo o un segno fastidioso, oppure il nome dell’autore sull’immagine? Quella cosa irritante è un watermark. Alcuni autori di solito lo inseriscono sulle loro creazioni solo per far sapere a tutti la paternità della loro opera – e nessuno dovrebbe rimuoverlo. Qui c’è un esempio su Flickr che è stato usato anche nel progetto StyleGAN.
Nelle 70.000 immagini all’interno del dataset, come si può immaginare ci sono fotografie di diverso tipo, tra cui naturalmente le fotografie con i watermark (qui altri esempi).
Nei prossimi screenshot, la prima immagine appartiene alla cartella (chiamata “in-the-wild-images”) contenente le foto scaricate da Flickr, la seconda viene dalla cartella (sotto il nome di “images1024x1024”) dove le stesse immagini scaricate da Flickr sono allineate e ritagliate, pronte per essere usate.
Date un’occhiata al file “21113.png”.

Cartella Drive “in-the-wild-images” con le immagini originali da Flickr (source: https://drive.google.com/open?id=1YyuocbwILsHAjTusSUG-_zL343jlVBhf)

Cartella Drive “images1024x1024” con immagini allineate e ritagliate, a.k.a. training set (source: https://drive.google.com/open?id=1u3Hbfn3Q6jsTlte3BY85CGwId77H-OOu)
Come si può vedere, il problema è che il tool di machine learning ha tagliato via il watermark dalla foto. E naturalmente non riappare da nessuna parte nell’immagine finale.
Ecco altri esempi di altre fotografie provenienti dal dataset.
Il file “20768.png”;

Cartella Drive “in-the-wild-images” con le immagini originali da Flickr (source: https://drive.google.com/open?id=1YyuocbwILsHAjTusSUG-_zL343jlVBhf)

Cartella Drive “images1024x1024” con immagini allineate e ritagliate, a.k.a. training set (source: https://drive.google.com/open?id=1u3Hbfn3Q6jsTlte3BY85CGwId77H-OOu)
Il file “22779.png”.

Cartella Drive “in-the-wild-images” con le immagini originali da Flickr (source: https://drive.google.com/open?id=1YyuocbwILsHAjTusSUG-_zL343jlVBhf)

Cartella Drive “images1024x1024” con immagini allineate e ritagliate, a.k.a. training set (source: https://drive.google.com/open?id=1u3Hbfn3Q6jsTlte3BY85CGwId77H-OOu)
Si può obbiettare che le immagini prese dal dataset avevano licenze permissive, quindi non dovrebbe essere un problema tagliare via i watermark.
In realtà, così facendo si rischia di scivolare silenziosamente dentro un campo minato.
Come riportato qui di seguito, ad esempio, ci sono preoccupazioni di carattere legale sulla rimozione dei watermark e dei segni distintivi, anche con le licenze Creative Commons (come nel nostro caso), dal momento che si rileva un alto rischio di violazione di copyright.
Ho contattato il team di StyleGAN riguardo questo problema. Ho richiesto come mai avessero usato questo tipo di fotografie per il training set e se avessero delle speciali autorizzazioni da parte degli autori per poter validamente rimuovere i loro watermark, ma non ho ricevuto alcuna risposta.
Ci sono molti indizi che su questo progetto non è stata data abbastanza cura di dati personali, quali sono i nostri volti, specialmente in un periodo come questo di crescente preoccupazione su questo tema. Questo video del progetto riferisce di “un nuovo generator che automaticamente impara a separare i diversi aspetti di un’immagine senza alcuna supervisione umana”.
In effetti, aver prestato una maggiore attenzione sarebbe stato apprezzabile, se non, in alcuni casi, richiesta.
Quindi non si tratta solamente di watermark, perché non ci vorrà nulla perché gli algoritmi dell’intelligenza artificiale possano escludere dal progetto le fotografie con specifiche informazioni sull’autore. Inoltre, diciamocela tutta – non abbiamo dovuto aspettare il progetto StyleGAN per poter rilevare una violazione del genere.
Un conto è, tuttavia, una singola persona che opera sul suo proprio computer su un numero più o meno ristretto di fotografie; un altro è nutrire le macchine di intelligenza artificiale con decine di migliaia di ritratti senza alcuna preoccupazione su come trattare quel tipo di immagini.
In entrambi i casi abbiamo lo stesso tipo di violazione, ma nel secondo abbiamo, ovviamente, un più ampio raggio di interessi danneggiati, dal momento che un numero di immagini enormemente superiore sono state ritagliate e violate.
Dal momento che dovremmo contare sull’intelligenza artificiale per riuscire a fare meglio le cose e non per creare problemi ulteriori, è essenziale avere un’appropriata conoscenza del tipo di dati con cui si ha a che fare – la proprietà intellettuale in questo caso, così come ai tempi del principe Alberto.