La tecnologia è ancora in grado di distinguere le immagini generate dall’IA?
La tecnologia è ancora in grado di distinguere le immagini generate dall’Intelligenza Artificiale (IA, o AI, da artificial intelligence) rispetto alle tradizionali fotografie? Una domanda contraddittoria se si pensa che alla base dell’IA si trova proprio il sapere tecnico scientifico. Eppure, un articolo pubblicato mercoledì scorso sulla rivista scientifica Nature sente la necessità di indagare proprio questa tematica, mettendo innanzitutto in evidenza le problematiche di natura sociale e politica legate alla creazione di immagini, video o registrazioni false tramite l’utilizzo di Intelligenze Artificiali.
Conseguenze concrete
Vi ricordate ad esempio di quelle fotografie pubblicate lo scorso giugno, in vista della battaglia elettorale alla presidenza 2024, nelle quali Donald Trump bacia l’immunologo statunitense Anthony Fauci? Oppure di quando a inizio anno il presidente della Federal Reserve statunitense, Jerome Powell, ha creduto di essere in una video conversazione con il presidente ucraino Volodymyr Zelensky? O ancora l’immagine andata subito virale di Papa Francesco avvolto da una giacca firmata? E la lista potrebbe continuare… Il ragazzo che creò la foto affermò in seguito a BuzzFeed News: «Ho solo pensato che fosse divertente vedere il Papa con una giacca buffa».
Che si tratti di falsificazioni politiche, artistiche o volte unicamente all’intrattenimento, però, la difficoltà nel distinguere il vero dal falso si presenta come una problematica, questa sì, reale e tangibile. «La quantità di contenuti generati dall'intelligenza artificiale è sconosciuta - si legge su Nature -, ma si pensa che stia esplodendo. Gli accademici citano comunemente una stima secondo cui circa il 90% di tutti i contenuti di Internet potrebbe essere sintetico entro pochi anni».
E così come la complessità è reale nel distinguere la mano artificiale dell’AI attraverso i contenuti del web, lo sono anche i suoi effetti sul mondo. È bastato infatti uno solo di questi a provocare un breve calo nel mercato azionario lo scorso maggio, quando a essere ritratta da una di queste fotografie fake è stata una fantomatica esplosione al Pentagono.
Un ulteriore scompenso è dovuto alla semplice esistenza di questi falsi, i quali permettono, grazie alla loro similitudine con il reale, di considerare sintetico anche ciò che non lo è. È così dunque possibile evitare le conseguenze di un’azione scorretta, unicamente dichiarando che la prova sia stata in verità generata dall’IA, pur essendo autentica.
Fra disinformazione e appropriazione
Un altro piano sul quale viene discusso questo soggetto è anche quello etico. A chi spettano i diritti per queste produzioni sintetiche? Come individuare quelle fotografie che non sono frutto di un’opera umana per dare i crediti ai fotografi reali? Come definire questi ultimi? Queste tematiche spaventano gli artisti che vivono grazie alle immagini e, a questo proposito, Sara Melotti, una fotografa documentarista, videomaker e scrittrice, propone una riflessione volta ad evidenziare questi pericoli. Per questo motivo, riferendosi alle tecnologie di Intelligenza Artificiale che trasformano il testo in immagine, dichiara imperativamente: «Lo ribadisco in caso non fosse chiaro: l’AI text-to-image NON È fotografia».
Ciò che l’artista identifica come preoccupante è in particolare il momento in cui testate autorevoli impiegano immagini sintetiche senza segnalarlo, generando così, anche involontariamente, confusione negli utenti che ne fruiscono. «Recentemente Photo Vogue (una piattaforma nata per la fotografia e poi ampliata ad altre arti visive, incluse quelle digitali) - notifica Melotti - ha più di una volta pubblicato immagini generate da AI text-to-image categorizzandole sotto generi come documentary». Distinguere dunque la realtà dalle così dette fake news è ormai estremamente difficile «perché con i progressi che si stanno facendo in campo di manipolazione dei file anche il metadata ormai potrebbe essere cambiato, rendendo impossibile fornirne la provenienza» afferma la fotografa.
Riguardo a questo, le parole espresse dalla psicologa Sophie Nightingale dell'Università di Lancaster, che studia gli effetti dell'IA generativa, rincarano la dose: «La capacità delle persone di sapere davvero dove riporre la propria fiducia sta venendo meno. E questo è un vero problema per la democrazia», afferma pensando alle prossime grandi elezioni previste negli Stati Uniti, in Russia e nel Regno Unito.
Anche per gli articoli e le ricerche scientifiche, secondo il parere di esperti, si riscontra lo stesso problema. Nature riporta le parole di Wael Abd-Almageed, scienziato informatico e ingegnere informatico presso la University of Southern California di Los Angeles, il quale afferma come mancherebbero mesi (non anni!) a quando, a occhio nudo, non sarà più possibile distinguere la differenza fra AI text-to-image e fotografie.
In medio stat virtus
Nonostante questo, esistono conseguenze positive. I deepfake vengono, infatti, impiegati in svariate applicazioni, come la generazione di insiemi di dati medici che garantiscono la massima tutela della privacy, nella progettazione di nuove molecole medicinali e nell'ottimizzazione di testi scientifici e software. Inoltre, si sta esplorando la loro applicazione nel contesto delle terapie di gruppo basate su video, dove possono essere utilizzati per proteggere l'identità dei partecipanti, e nella creazione di avatar personalizzati di medici o insegnanti, allo scopo di offrire un'esperienza più coinvolgente per gli spettatori. Possono, inoltre, contribuire a migliorare le condizioni di controllo nelle ricerche condotte nel campo delle scienze sociali. «Sono più fiducioso che preoccupato. Penso che si tratti di una tecnologia trasformativa» dichiara Shyam Sundar, psicologo e fondatore del Media Effects Research Laboratory della Pennsylvania State University di University Park.
Comprendere in che modo trarne il meglio, sviluppando in parallelo strumenti che ne limitino i danni, è quindi ora l’obiettivo dei ricercatori. «La difesa tecnologica si articola su due fronti - leggiamo più sotto -: l'etichettatura proattiva dei contenuti veri o falsi quando vengono generati e l'utilizzo di rilevatori per individuare i falsi dopo la pubblicazione». Soluzioni perfette? Secondo Sundar, sicuramente no. «L’importante è riuscire a rendere le cose difficili ai malintenzionati» aggiunge.
Educazione e legislazione
Per limitare questo fenomeno a lungo termine, secondo la psicologa Nightingale, è importante agire sull’educazione e sulla regolamentazione. «L'Unione Europea - scrive Nature - sta facendo da apripista a livello globale con la sua legge sull'IA, approvata dal Parlamento a giugno e in attesa di decisioni da parte degli altri due rami del governo dell'UE».
In questo senso, quest’anno ha portato diverse aziende ad agire per identificare la pubblicazione di contenuti sintetici. Tra queste s’inserisce TikTok, seguito questo luglio da altre importanti società tecnologiche quali Meta, Microsoft, OpenAI e Amazon. Inoltre, anche Google ha appena annunciato che «qualsiasi contenuto generato dall'IA e utilizzato negli annunci politici dovrà essere dichiarato sulle sue piattaforme, compresa quella di YouTube». Questo cambiamento avverrà a partire dalla metà di novembre 2023.
Come fare?
Filigranare le immagini sintetiche, alternandone i pixel in maniera irrilevante ad occhio nudo, sembrerebbe uno dei modi per segnalare i deepfake, se sottoposti ad analisi. Tuttavia, non è ancora chiara l’efficacia di questo metodo in quanto, seppur in alcuni casi più difficilmente rispetto ad altri, non risulta impossibile riuscire ad eliminare quest’etichetta dalle AI text-to-image, rendendole così nuovamente mimetizzabili fra le autentiche fotografie.
Un altro modo, utilizzato anche dall’agenzia di stampa Reuter per autentificare le fotografie della guerra in Ucraina, sarebbe quello di «contrassegnare i metadati di un file con informazioni di provenienza sicure». In parole povere, ciò significa associare all’immagine, tramite un software sulla fotocamera, dati riguardanti il luogo e l’ora dello scatto, così come il fatto che non si tratti di una foto di un’altra fotografia.
Esistono, per di più, rilevatori in grado di identificare orologi presenti nello scatto. Individuano l’ora registrata e la paragonano all’illuminazione della fotografia al fine di scoprire se i due dati corrispondono. Sorprendente è anche il FakeCatcher dell'azienda tecnologica Intel. Questo strumento è in grado di studiare le immagini video, assimilando i mutamenti di colore sul volto causati dalla variabilità del flusso sanguigno. Agire sui punti deboli dell’IA è, dunque, un sistema diffuso. Uno di questi riguarda la scarsa abilità dei deepfake nel riprodurre i suoni provocati dai sensori di luce della fotocamera. Questi segnali vengono dunque cercati da alcuni rilevatori per confermare o meno l’autenticità dello scatto.
Nonostante tutte queste possibilità, tuttavia, il tasso di affidabilità non ha ancora raggiunto il 100%. Per questo motivo, secondo un esperto, adoperare più rilevatori per una stessa immagine potrebbe aiutare nell’decretarne l’autenticità.
Ma non sono solo gli strumenti tecnologici ad essere impiegati per compiere queste distinzioni. Le intuizioni e lo studio umano sono, infatti, un altro elemento che Nature definisce complementare agli strumenti tecnici in questo processo di distinzione. Hany Farid, informatico dell'Università della California, Berkeley, per esempio, sfrutta lo studio delle immagini, cercando tracce di linee di prospettiva nelle fotografie che «non seguono le regole della fisica». Inoltre, con la sua squadra, ha individuato un tratto comune nei profili del viso creati dalla rete generativa StyleGAN, i quali «tendono a posizionare gli occhi nella stessa identica posizione della foto, fornendo un indizio su quali volti siano falsi».
Più dell’autenticità, l’intento
Forse più che l’autenticità, però, visto il numero crescente di utenti che sfrutta le capacità dell’AI text-to-image, è l’intento che conta maggiormente. È, infatti, su questo aspetto che diverse ricerche si stanno focalizzando, creando modelli automatizzati capaci di identificare campagne di disinformazione di massa che potrebbero richiedere l’ausilio della diffusione di alcune immagini sintetiche. La domanda, perciò, si trasforma. Non ci si chiede più «quanto di questo è sintetico?», ma «perché è stato creato?».
In conclusione, Farid sostiene che l'approccio al rilevamento dovrebbe concentrarsi su indagini mirate e approfondite su casi specifici, anziché cercare di sorvegliare l'intera Internet in modo indiscriminato. Secondo lui, infatti, quello di cercare di fermare o individuare tutti i deepfake sarebbe un obiettivo irraggiungibile. «Sarà ancora possibile ingannare il mondo con falsi IA generativi, ma - chiosa l’informatico -, sarà molto più difficile».