In questi ultimi anni il concetto di “intelligenza artificiale” è salito alla ribalta, passando da un tema tutto sommato di nicchia, di cui si occupavano prevalentemente esperti del settore e ricercatori, ad uno degli argomenti più discussi ed importanti dei giorni nostri. Si tratta di un’esplosione di interesse assolutamente stravolgente, tanto improvvisa quanto inaspettata, e resa ancora più incredibile dal fatto che essa è dovuta ad un singolo, semplice evento: il lancio di ChatGPT. Spiegare cosa sia quest’ultima non mi sembra necessario: secondo un articolo del Sole 24 Ore di qualche mese fa, in Italia il chatbot è usato da quasi 9 milioni di persone ogni mese, e questo senza neanche contare gli utenti occasionali, per non parlare poi di tutti coloro che ne hanno sentito parlare al TG o sui giornali. Quello che vorrei invece evidenziare è che ChatGPT è stato solo il primo e più popolare di una nuova tipologia di sistemi: le IA generative (o GAI, generative AI).
Come si può capire dal nome, le IA generative sono programmi capaci, per l’appunto, di generare contenuti di vario tipo: non solo testi scritti, come fa ChatGPT, ma anche immagini, audio e video. Non è difficile immaginare come strumenti del genere siano riusciti a catturare e mantenere l’attenzione del pubblico: che sia per scopi lavorativi o personali, per svolgere attività complesse o semplicemente come supporto, l’intelligenza artificiale ha un’ampia varietà di possibili usi e applicazioni, rivelandosi di grande utilità (e di grande interesse) per moltissimi utenti. I risvolti dell’introduzione dell’IA generativa non sono però del tutto positivi: come ogni altra nuova tecnologia, essa porta con sé anche nuovi problemi e complicazioni. Tra questi, ce ne sono tre che trovo essere particolarmente meritevoli di attenzione, anche se per motivi diversi: l’origine dei materiali usati per addestrare i programmi, i deepfake, e la cosiddetta “AI slop”.
Dataset e addestramento: la questione del copyright
Iniziamo quindi parlando di come vengono addestrati i modelli di IA: questo è infatti un tema particolarmente attuale, in quanto negli ultimi tempi è stato soggetto di numerose cause per la violazione del copyright. In breve, il funzionamento dei sistemi di intelligenza artificiale generativa si basa sull’apprendimento: questi programmi ricevono dei dataset (ossia dei set di dati) di grandi dimensioni, che vengono quindi studiati ed analizzati per individuare dei pattern. Tali pattern sono poi utilizzati per sviluppare le regole che guidano l’IA nella creazione di nuovi contenuti: ad esempio, i chatbot imparano a “prevedere” quale parola dovrebbe seguire un’altra per formare una frase di senso compiuto studiando testi di vario genere, mentre un generatore di immagini apprende a collegare la parola “cane” con certi elementi visivi esaminando immagini e foto accompagnate da una descrizione del loro contenuto, e via dicendo. Fornire dei dataset di addestramento adatti è quindi fondamentale per garantire il buon funzionamento del modello, ed è proprio qui che emerge il problema: per ottenere un sistema affidabile i dataset devono essere di una certa ampiezza, ovvero contenere centinaia di milioni se non addirittura miliardi di dati. Si tratta di cifre immense, che possono essere difficili da raccogliere, motivo per cui i programmatori fanno spesso ricorso ad un metodo conosciuto come “web scraping”. Sostanzialmente, esso consiste nel fare uso di appositi programmi che navigano di pagina web in pagina web, selezionando e copiando i contenuti di interesse (immagini, testi ecc.), per poi inserirli in un database che verrà quindi fornito all’IA da addestrare. Sfortunatamente, i sistemi utilizzati per il web scraping tendono a non discriminare tra i dati “liberi” e quelli protetti da copyright, raccogliendo questi ultimi anche in mancanza dell’autorizzazione dei loro proprietari. Normalmente ciò sarebbe illegale, ma il fatto che i dati raccolti siano pubblicamente disponibili online, in combinazione con l’uso non commerciale che ne viene fatto, va a complicare la situazione, creando così una zona grigia al centro di numerose discussioni. Come ho già accennato, ci sono infatti già stati vari tentativi di fare causa per violazione del copyright ad imprese che operano nel settore dell’IA, sia da parte di autori e creatori di contenuti, sia da parte di grandi aziende come la Disney o la Warner Bros. Nella maggior parte dei casi questi tentativi si sono però risolti a favore della difesa: nelle cause contro Meta ed Anthropic in America, e in quella contro LAION in Germania, i giudici hanno infatti deliberato che la raccolta di dati per addestrare sistemi di intelligenza artificiale è legittima, in quanto effettuata per scopi scientifici o educativi. Detto ciò, è comunque importante notare che molti sviluppatori di IA, a conoscenza delle problematiche legate alla raccolta dati, si sono messi in cerca di soluzioni alternative. In particolare, ci sono stati alcuni tentativi di creare database privi di contenuti protetti dal copyright, o addirittura composti interamente da dati sintetici, ossia dati artificiali creati appositamente per questo scopo.
I deepfake: il problema del riconoscere il vero dal falso
Continuiamo quindi andando a considerare i deepfake, ossia i contenuti “fasulli” creati o manipolati usando l’intelligenza artificiale. Prima di iniziare vorrei però chiarire una cosa molto importante: nonostante la loro reputazione negativa, i deepfake hanno anche degli usi legittimi e positivi in ambiti come la sanità, l’educazione o l’intrattenimento. La capacità di manipolare i volti, ad esempio, potrebbe essere di grande utilità per il cinema, permettendo di ringiovanire facce, mascherare controfigure, o addirittura di “riportare in vita” attori morti. Al tempo stesso, questa è però anche una tecnologia che può essere facilmente abusata per ingannare e manipolare il pubblico, fornendogli informazioni false che risultano essere pressoché indistinguibili da quelle vere. Con l’avanzare delle capacità dei sistemi di IA i deepfake diventano infatti sempre più realistici, al punto che la persona comune spesso non è in grado di differenziare tra un prodotto “reale” e uno “artificiale”. Proprio da ciò derivano quindi i pericoli dei deepfake: questi programmi possono essere utilizzati per creare e diffondere fake news, per realizzare contenuti multimediali (audio, video, immagini) volti a diffamare, incriminare o ricattare altre persone, come anche per organizzare frodi o commettere furto d’identità, il tutto garantendo un livello di verosimiglianza che rende complicato il compito di identificare le contraffazioni. Altrettanto importanti sono però gli effetti a lungo termine di una tale tecnologia: la diffusione dei deepfake, sempre più difficili da individuare, potrebbe infatti portare a gravi conseguenze per la nostra società. Da un lato, ovviamente, ci troveremmo a dover affrontare la propagazione di un numero sempre maggiore di fake news, che già oggi sono fin troppo spesso credute e condivise da moltissime persone; dall’altro, la credibilità di tutte le notizie verrebbe messa in dubbio dall’impossibilità di individuare i falsi senza attenti esami, cosa che potrebbe portare ampie parti della popolazione a ritenere false, o quantomeno non attendibili, anche informazioni del tutto vere.
Detto questo, la situazione attuale non è in realtà tanto grave quanto potrebbe sembrare leggendo le righe qui sopra: politici e studiosi sono infatti già a conoscenza dei rischi in questione, e si stanno preparando ad affrontarli attraverso varie misure. Queste includono, solo per menzionarne alcune, lo studio di tecniche ed algoritmi per individuare contenuti manipolati dall’IA, la realizzazione di nuove regolamentazioni mirate a minimizzare l’impatto dei deepfake, ad esempio imponendo l’obbligo di segnalarli come tali quando vengono pubblicati, e l’educazione del pubblico nell’ambito della “media literacy”, allo scopo di promuovere un modo di pensare più critico e capace di valutare l’attendibilità delle notizie trovate in rete.
La spazzatura dell’intelligenza artificiale: i fastidi dell’AI slop
Arriviamo quindi alla questione dell’AI slop. Questo termine, che potremmo tradurre con “sbobba di IA” o “sbobba artificiale”, si riferisce ad una tipologia di contenuti generati con l’ausilio dell’intelligenza artificiale, che si contraddistinguono per la loro scarsa qualità, e per l’essere creati e pubblicati in enormi quantità. Per molti versi l’AI slop può quindi essere visto come equivalente allo spam o allo shovelware: prodotti realizzati in massa, velocemente e a basso costo, senza alcun impegno da parte dell’utente e assolutamente privi di creatività, al punto da risultare ripetitivi. A questo punto serve però un chiarimento: in confronto ai due argomenti precedenti, una nuova forma di spam sembra piuttosto insignificante. Fastidiosa forse, ma certamente non paragonabile in termini di importanza ai deepfake, o anche soltanto alle questioni legali legate al web scraping. Ciò è sicuramente vero, ma è anche del tutto insufficiente ad evidenziare come quella della “sbobba” sia in realtà una questione sorprendentemente sentita e discussa, capace di polarizzare le opinioni degli utenti come poche altre. Dal punto di vista dell’utente medio, quella dell’AI slop è infatti la più immediata delle tre problematiche, quella più facile da notare e che più attira l’attenzione: basta una ricerca Google, un’occhiata ai social media, o una visita su uno dei tanti siti dedicati a condividere immagini e video per trovarsi di fronte all’AI slop. A tal riguardo vale peraltro la pena di notare che questo è un fenomeno molto più diffuso di quanto non appaia a prima vista: ad essere interessati non sono solo i casi già menzionati, in quanto i contenuti artificiali hanno invaso anche annunci pubblicitari, negozi di libri online, e perfino giornali, riviste scientifiche e uffici. Il risultato finale è però lo stesso indipendentemente dall’ambito in cui ci si trova: dozzine, se non centinaia di contenuti, spesso pressoché identici e del tutto privi di qualsiasi valore – culturale, artistico, informativo – che affollano ed intasano i siti su cui vengono caricati, costringendo gli utenti a navigare tra di essi alla ricerca di ciò che desiderano. Non è quindi sorprendente che molti web site abbiano deciso di adottare delle contromisure mirate a contenere l’afflusso di prodotti realizzati con l’intelligenza artificiale, contromisure che variano dal semplice obbligo di segnalare quando un contenuto è “AI generated”, tipicamente accompagnato da un’opzione che permette ai visitatori di non visualizzare questi prodotti se lo desiderano, fino ad un divieto completo di pubblicare tutto ciò che è stato creato dall’IA. Sfortunatamente queste pratiche, sebbene efficaci, hanno anche un effetto negativo, ossia quello di contribuire alla “stigmatizzazione” dell’intelligenza artificiale generativa. Il diffondersi dell’AI slop ha infatti portato molte persone a percepire questo strumento come capace di produrre solo spazzatura, al punto da considerare in modo negativo qualsiasi coinvolgimento da parte della GAI, indipendentemente da quanto piccolo sia o dalla qualità del risultato.
L’IA generativa: da semplice strumento a simbolo del progresso
Prima di concludere questo articolo, c’è però un’ultima considerazione che penso sia importante fare: il campo dell’intelligenza artificiale è molto più ampio della sola IA generativa, ma quest’ultima ne è effettivamente diventata il “volto” pubblico. In parte perché ChatGPT e altri programmi simili sono stati i primi ad entrare nell’immaginario popolare, in parte perché essi sono usati da milioni di utenti, la GAI è ormai la tipologia di IA più conosciuta e riconoscibile: in effetti, per molte persone essa È l’intelligenza artificiale. Proprio questa fama contribuisce però a renderla un punto di grande importanza nel più ampio dibattito sul tema: essa è infatti in grado di influenzare il modo in cui il pubblico percepisce l’IA più di ogni altra applicazione attuale. Esistono già dei casi di persone che si rifiutano di utilizzare l’intelligenza artificiale, un fenomeno chiamato “AI veganism”, ed è probabile che posizioni simili verranno adottate da molti altri se si diffonde l’idea che l’IA sia inutile o dannosa, capace solo di copiare l’essere umano e di creare falsi e spazzatura. Al contrario, evidenziare come essa sia semplicemente uno strumento, la cui utilità dipende dall’uso che ne viene fatto, ci aiuterebbe ad accettare più facilmente questa nuova tecnologia. Da questo punto di vista, il modo in cui verranno gestite le problematiche generate dalla GAI potrebbe quindi giocare un ruolo fondamentale nel definire il nostro atteggiamento nei confronti delle future applicazioni dell’intelligenza artificiale.
Lascia un commento