Oltre l'uomo

Intelligenza artificiale, nuove tecnologie, attualità e riflessioni filosofiche.

“Il linguaggio gioca un ruolo di fondamentale importanza all’interno della nostra società”. Questa è un’affermazione del tutto scontata, come dire (per prendere in prestito un’espressione inglese) che “l’acqua è bagnata” o “il papa è cattolico”. Semplicemente, è qualcosa di assurdamente ovvio, su cui non c’è alcun bisogno di interrogarsi o riflettere: in fondo, lo stesso fatto che io possa fare un’affermazione del genere dipende dall’esistenza del linguaggio e dall’uso che ne fa l’uomo! Più concretamente, non sarebbe certo un’esagerazione dire che, senza il linguaggio, l’essere umano come lo conosciamo non esisterebbe. Scienza, tecnologia, cultura – senza il linguaggio, nessuna di esse potrebbe esistere. La capacità di comunicare informazioni anche astratte o complesse, di trasmetterci a vicenda idee e concetti è infatti alla base dell’intero scibile umano, e potrebbe ben essere definita come il “sine qua non” dell’esistenza della civiltà.

Non sorprenderà quindi sapere che quello del linguaggio sia sempre stato un tema di grande interesse per chi si occupa di IA: sin dalle origini, uno dei principali obiettivi di questo campo di ricerca è infatti stato la creazione di un sistema capace di padroneggiare la nostra lingua. In effetti, per una buona parte della sua storia l’idea di un “computer parlante” è stata una sorta di Sacro Graal per gli esperti del settore, tanto ambito quanto irraggiungibile; in questi ultimi anni le cose sono però assai cambiate, al punto che i chatbot capaci di intrattenere conversazioni sensate sono ormai comunissimi. Eppure, anche il programma più potente ed avanzato è ancora ben lontano da ciò che desideravano i pionieri dell’intelligenza artificiale, nonostante la sua padronanza del linguaggio: la domanda che sorge spontanea è quindi “perché?” Per quale motivo il linguaggio è sempre stato percepito come un elemento così importante nello sviluppo dell’IA, e perché si è invece rivelato essere assai meno rilevante di quanto non si pensasse?

Si tratta di una questione molto interessante, a cui non è però possibile andare a rispondere senza esaminare la storia stessa dell’intelligenza artificiale e alcune delle sue più importanti personalità, tappe e concetti. In particolare, ci sono tre elementi chiave su cui dovremmo andare a concentrarci: il Test di Turing, l’esperimento mentale della Stanza Cinese, e infine lo sviluppo dei Large Language Models (LLMs).

Alle origini di tutto: Alan Turing e la macchina intelligente

Tipicamente, la “Conferenza di Dartmouth” del 1956 viene considerata l’evento fondativo che ha dato origine all’intelligenza artificiale come campo di ricerca; tuttavia, i principi dell’IA erano in realtà argomento di discussione già da alcuni anni all’interno del mondo accademico, motivo per cui alcuni dei suoi concetti possono essere ritrovati anche in articoli e testi del decennio precedente. Tale è infatti il caso di “Computing machinery and intelligence”, pubblicato nel 1950 dal matematico britannico Alan Turing. Turing, vale la pena di menzionarlo, è una figura di grande importanza per l’ambito dell’intelligenza artificiale e dell’informatica più in generale, al punto da essere considerato uno dei padri fondatori di quest’ultima. Le sue teorie hanno contribuito enormemente alla nascita e allo sviluppo di questi campi, e “Computing machinery and intelligence” ne è la prova: in questo articolo viene infatti proposta la prima versione di quello che diventerà poi conosciuto come il “Test di Turing”, uno dei concetti più duraturi ed influenti della storia dell’IA.

Originariamente chiamato “gioco dell’imitazione” dal matematico britannico, il test si ispira ad un semplice gioco di gruppo in cui una persona (l’interrogatore) deve dialogare con altri due giocatori per stabilire quale sia un uomo e quale sia una donna. Piuttosto ovviamente, l’interrogatore si trova in una stanza separata, e può comunicare con i compagni di gioco solo attraverso note scritte; in aggiunta a ciò, l’uomo e la donna non si limitano soltanto a rispondere alle domande del primo giocatore, ma hanno anche il compito, rispettivamente, di ingannarlo ed aiutarlo. Turing riprende questa struttura, ma con un importante cambiamento: anziché dover stabilire il sesso dei suoi interlocutori, l’interrogatore deve identificare quale di essi sia un essere umano e quale un computer.

A questo punto dobbiamo però fare un passo indietro, e discutere dell’obiettivo di questo test: come si può capire dalla sua formulazione, esso serve a valutare la capacità di un sistema di sostenere una conversazione. Tanto maggiore la sua padronanza del linguaggio, tanto più probabilmente un programma riuscirà ad ingannare il nostro giudice; di conseguenza, per passare effettivamente il Test di Turing un computer deve risultare impossibile da identificare come tale in modo affidabile. Al giorno d’oggi, con l’abbondanza di chatbot in circolazione, questa sembra una prova estremamente semplice, ma negli anni 50 l’idea di una macchina capace di parlare la nostra lingua ad un livello tale da risultare sostanzialmente indistinguibile da un essere umano era una cosa da racconto di fantascienza. Detto questo, è importante notare che la scelta di centrare il gioco dell’imitazione sulla capacità di un sistema di riprodurre il linguaggio è dovuta a motivi ben precisi: Turing si trovava infatti a dover affrontare la spinosa questione di come definire il concetto di “pensare”, problema che riesce a risolvere trasformando la domanda da “può una macchina pensare” a “può una macchina fare quello che noi, esseri pensanti, siamo in grado di fare”. In sostanza, anziché valutare se sia presente una vaga e indefinibile “intelligenza”, il test mira invece a misurare la capacità di agire come un essere intelligente, spostando la discussione dall’ambito filosofico ad uno più pratico.

Come si può immaginare, tutto ciò ha reso il Test di Turing un tema di grande interesse per molti studiosi di IA, garantendo a questa idea un incredibile livello di fama, anche al di fuori del settore. Sfortunatamente, il tempo ha anche rivelato numerose debolezze sia nel concetto del gioco di imitazione, sia nella sua esecuzione: in particolare, nel corso degli anni 90 e dei primi del 2000 diversi sistemi si sono rivelati in grado di passare questa prova facendo affidamento a “soluzioni creative” come l’inserimento volontario di errori grammaticali (secondo la logica che un computer non fa errori, ma un essere umano sì), lo spacciarsi per un bambino ucraino (per giustificare la mancanza di conoscenze fattuali e la scarsa padronanza dell’inglese) o addirittura la semplice ripetizione, in modo leggermente parafrasato, dei messaggi ricevuti (per dare l’impressione di un ascoltatore che presta attenzione). Ovviamente, nessuno di questi programmi era veramente dotato di intelligenza (o, se è per questo, veramente capace di sostenere una conversazione), facendo così emergere dubbi sull’effettiva efficacia del Test di Turing; in risposta, alcuni esperti del settore hanno cercato di svilupparne delle variazioni più precise e funzionali, ma con scarsi risultati: al giorno d’oggi, per quanto ancora famoso e a volte utilizzato per mettere alla prova modelli di chatbot, il gioco dell’imitazione è infatti ritenuto un’idea superata, se non addirittura del tutto inutile.

I primi dubbi: il manuale di cinese di John Searle

Come ho già accennato, la fine del XX secolo ha rappresentato un momento piuttosto importante per il Test di Turing: da un lato è il suo periodo di massimo sviluppo ed interesse, al punto da risultare in vere e proprie competizioni tra programmi come il “Premio Loebner”, tenutosi annualmente tra il 1991 e il 2019; dall’altro è anche un periodo di crisi, in cui i primi modelli di chatbot dimostrano chiaramente quanto sia facile ingannare l’essere umano, danneggiando così la credibilità del test. Tuttavia, è importante notare che alcuni studiosi avevano messo in discussione la validità del gioco dell’imitazione già da alcuni anni, sostenendo che esso non fosse un modo efficace per valutare se un sistema sia intelligente o meno. In particolare, è difficile parlare di questo argomento senza menzionare John Searle, un filosofo americano che nel 1980 propose l’esperimento mentale della “Stanza Cinese”, che mirava a dimostrare come la capacità di parlare il linguaggio non implichi l’intelligenza.

In questo ipotetico scenario, Searle ci invita ad immaginare di avere, di fronte a noi, un potentissimo supercomputer, abbastanza grande da occupare un’intera stanza e capace di fare quello che, ai tempi, pareva impossibile: parlare correntemente il cinese. Il suo funzionamento è semplice: l’utente scrive un messaggio su un foglio di carta e lo inserisce all’interno della macchina; quest’ultima elabora quindi il testo ricevuto e produce una risposta adeguata, stampandola su di un altro foglio di carta. In sostanza, si tratta esattamente di quello che fanno i chatbot moderni, ma utilizzando un supporto analogico anziché digitale per registrare input e output. Ora, la padronanza del cinese dimostrata dal nostro supercomputer è tale che esso risulta essere sostanzialmente indistinguibile da un madrelingua umano, rendendolo quindi in grado di superare il Test di Turing senza alcuna difficoltà; di conseguenza, in base alla comune interpretazione del gioco dell’imitazione per cui “capacità di parlare il linguaggio=intelligenza”, il supercomputer è una macchina intelligente.

Ed è proprio questo il punto in cui emerge la critica di Searle: il filosofo ci invita infatti ad immaginare che, anziché ingranaggi, microchip o altri congegni meccanici, all’interno della nostra “macchina intelligente” ci sia soltanto… un uomo. Chi sia non importa; l’importante è che egli non sappia assolutamente niente del cinese: regole sintattiche e grammaticali, pronuncia, persino il significato dei singoli caratteri – nulla. Quest’uomo ha però con sé un manuale, che riporta al suo interno una serie di istruzioni che gli spiegano, in maniera molto precisa, quale sequenza di simboli deve stilare in risposta ad uno specifico input. Se il manuale è abbastanza estensivo, allora ad un osservatore esterno potrebbe sembrare di star veramente conversando con un ente che conosce il cinese, mentre in realtà il sistema non ha alcuna comprensione del linguaggio, né nel suo complesso, né tantomeno nelle sue singole parti.

Come si può quindi vedere, la stanza cinese dimostra molto chiaramente come la padronanza di una lingua non sia un elemento sufficiente a garantire la presenza di intelligenza – in effetti, l’esperimento mentale rende evidente come non serva nemmeno la comprensione di un linguaggio per poterlo parlare. Ovviamente, ciò significa anche che il Test di Turing non ha alcuna validità come strumento per determinare se una macchina sia effettivamente capace di pensare, ed ogni tentativo di usarlo per tale scopo è destinato al fallimento.

Settant’anni più tardi: perché i LLMs parlano ma non pensano

Fino ad ora, la nostra discussione si è prevalentemente concentrata sul Test di Turing; tuttavia, è importante notare che, sebbene esso sia certamente stato un tema di grande interesse per molti studiosi, non è neanche lontanamente l’unico motivo per cui gli esperti di IA si sono occupati del linguaggio. L’idea di una “macchina parlante” ha infatti sempre affascinato il genere umano, e nel corso degli anni ci sono stati moltissimi tentativi di realizzare sistemi capaci di comunicare con noi, tentativi che sono culminati nello sviluppo dei primi Large Language Models a partire dal 2017. Senza andare troppo nel dettaglio su di un argomento abbastanza complesso, possiamo definire i LLMs come dei modelli di IA che sono stati addestrati su enormi quantità di testi scritti per imparare a riconoscere e riprodurre il linguaggio umano. Come si può quindi immaginare, questi sistemi linguistici giocano un ruolo chiave nella realizzazione dei chatbot moderni, garantendo performance e padronanza del linguaggio di gran lunga superiori ai sistemi precedenti.

Proprio questo è il caso di ChatGPT, il cui rilascio nel 2022 costituisce il terzo “elemento centrale” della nostra trattazione. Di cosa sia questo sistema di IA generativa e di quale sia stata la sua importanza non penso che sia necessario parlare: il chatbot di OpenAI è infatti diventato un vero e proprio simbolo di questa fase dello sviluppo dell’intelligenza artificiale, attirando l’attenzione e l’interesse tanto del pubblico quanto delle aziende e degli organi statali. Tuttavia, quello su cui dobbiamo andare a focalizzarci è un altro argomento, ossia il suo funzionamento.

Torniamo per un attimo al Test di Turing: per passarlo, un computer deve essere impossibile da identificare come tale in maniera affidabile; in termini pratici, ciò vuol dire che deve essere in grado di convincere l’interrogatore di star parlando con un essere umano almeno il 50% delle volte. ChatGPT, secondo alcuni studi, è capace di raggiungere o addirittura di superare questa percentuale, riuscendo così a battere il gioco dell’imitazione. Tuttavia, come ci dimostrava Searle con la sua stanza cinese, la capacità di parlare il linguaggio ad un livello tale da risultare indistinguibili da un essere umano non è sufficiente a garantire che un sistema sia effettivamente intelligente. A questo punto dovremmo quindi porci un’altra domanda: l’algoritmo creato da OpenAI comprende davvero il linguaggio?

La risposta, come si poteva forse immaginare, è un secco “no”. I chatbot che fanno uso dei large language models sono certamente più che capaci di sostenere una conversazione, le frasi che generano sono sintatticamente e grammaticalmente corrette, e in alcuni casi sono addirittura riusciti a convincere i loro interlocutori di star parlando con un essere senziente; tuttavia, questa padronanza della lingua è del tutto apparente, e, proprio come accade nell’esperimento mentale del filosofo americano, il sistema non capisce veramente cosa stia dicendo. Al contrario, il processo tramite cui vengono formulate le risposte alle nostre domande si basa sul puro calcolo matematico – o, più precisamente, sul calcolo delle probabilità.

In sostanza, quando ChatGPT riceve un messaggio esso viene “spezzettato” in frammenti più piccoli, detti token, che vengono poi analizzati per ricostruire il contesto della richiesta; tale contesto, insieme alle informazioni apprese durante l’addestramento (o trovate su internet), andrà quindi a costituire il punto di riferimento per la formulazione della risposta. Quest’ultima, come abbiamo detto, viene invece realizzata calcolando, di volta in volta, quale sia la più probabile parola successiva. In termini pratici si potrebbe quindi dire che il sistema generi la frase più statisticamente probabile, senza però comprenderne il senso – o, se è per questo, senza sapere se sia effettivamente corretta.

In certi casi può infatti accadere che un chatbot dia risposte errate, incomplete, o semplicemente assurde: queste sono conosciute come “allucinazioni” e, nonostante quanto potrebbe sembrare, non sono tecnicamente errori. Al contrario, esse sono dovute proprio al corretto funzionamento del sistema. Come abbiamo appena visto, i LLMs generano messaggi in base al puro calcolo delle probabilità, senza considerarne il senso; tuttavia, in date situazioni può accadere che la sequenza di parole più probabile non corrisponda alla realtà, risultando così in un’allucinazione. In particolare, è opportuno notare che questo genere di “errori” tende ad apparire più frequentemente quando si parla di argomenti di nicchia, poco conosciuti o documentati, in quanto la mancanza di dati rende più probabile che il sistema scelga la frase “sbagliata”.

Posted in

Lascia un commento