Può un’intelligenza artificiale diventare improvvisamente più stupida? A giudicare dalle ultime prestazioni di ChatGPT, la domanda è del tutto legittima. Qualche mese fa OpenAI, organizzazione no profit a cui si deve la creazione e il continuo miglioramento del chatbotpiù noto al mondo, lanciato nel novembre 2022, ha presentato e reso pubblico l’aggiornamento GPT-4, con cui contava di far debuttare una versione più sicura e affidabile dell’intelligenza artificiale in questione. Tuttavia, fin dai primi giorni dall’introduzione della nuova tecnologia, sui social network sono comparse numerose segnalazioni che riguardavano sì un cambiamento del comportamento della piattaforma, ma non in senso positivo: molti utenti, nonostante i risultati venissero generati più velocemente, hanno lamentato una qualità più scarsa delle risposte dell’IA, che sembra diventata di colpo più sensibile agli errori e meno precisa nella risoluzione di problemi di carattere scientifico.
A supporto di questa impressione collettiva è da poco emersa una ricerca, non ancora ufficiale, di due prestigiose università statunitensi: secondo alcuni studiosi di Stanford e Berkeley, l’accuratezza di ChatGPT risulta nettamente peggiorata in diversi casi, soprattutto quando si pongono domande di matematica più complesse. Ad esempio, la versione del chatbot dello scorso marzo “era molto brava a identificare i numeri primi con un’accuratezza del 97,6%; quella di giugno, invece, li riconosce il 2,4% delle volte”. Tutti sembrano quindi concordi nel sostenere che ChatGPT abbia subìto una regressione percepibile tra i due aggiornamenti: restano però da capire i motivi e le circostanze che hanno condotto a questa situazione indesiderata. Di fatto, l’intelligenza artificiale in questione viene costantemente studiata e perfezionata in modo da essere poi sfruttata in contesti lavorativi di ogni genere: se davvero ChatGPT avesse sperimentato un peggioramento notevole delle sue abilità, come sostengono diversi utenti, le conseguenze per l’azienda madre sarebbero state potenzialmente disastrose.
Una possibile spiegazione
Quello che sta succedendo al chatbot, secondo gli esperti, riguarda modifiche attualmente in corso sull’architettura informatica su cui si basa: nel nuovo aggiornamento, ChatGPT non è più un’intelligenza artificiale in sé e per sé, ma è scomposta in 16 piccole componenti esperte in determinati ambiti. In questo modo, ad ogni richiesta dell’utente, possono essere interpellate solo le sezioni che sono in grado di rispondere, usando così solo una piccola parte della rete e ottenendo maggiore efficienza, minore potenza computazionale richiesta e, di conseguenza, minori costi. Un’altra teoria che sta circolando in rete riguarda la possibile implementazione di filtri per ridurre gli errori nelle risposte, che hanno forse sortito l’effetto di rendere l’intelligenza artificiale meno sbilanciata rispetto all’aggiornamento GPT-3.5. In entrambi i casi, il compromesso da accettare è una qualità ridotta del risultato generato, che però, come abbiamo visto, non è stato accolto di buon grado. Alle numerose critiche è arrivata una risposta da parte del vicepresidente di OpenAI, Peter Welinder, che su uno dei suoi profili social scrive che “no, l’organizzazione non ha reso GPT-4 più stupido; al contrario, ogni nuova versione è più intelligente della precedente”. Inoltre, ipotizza che “se ChatGPT viene utilizzato molto frequentemente, è normale che si notino problemi non riscontrati in passato”.
Possiamo davvero ricondurre alla scomparsa dell’“effetto novità” le performance meno soddisfacenti di un’intelligenza artificiale che, fin dal momento del suo lancio, ha stupito per la sua spiccata accuratezza alle richieste? Oppure il ruolo preponderante lo giocano eventuali complicazioni verificatesi durante la fase di transizione alle nuove architetture (che l’azienda, almeno al momento, non intende rendere pubbliche)?
La verità (come al solito) sta nel mezzo?
Per quanto mi riguarda, la virtù sta nel mezzo: qualche settimana fa, incuriosita dallo studio di Stanford e Berkeley, ho riaperto ChatGPT dopo molto tempo per sottoporgli alcune domande di carattere matematico. Rispetto al passato, le risposte risultavano in generale meno precise e poco centrate, per cui sono convinta che non ci sia nessuna allucinazione collettiva sul calo di prestazioni dell’IA e che si siano effettivamente presentate delle difficoltà non previste nel passaggio alle tecnologie di GPT-4. Non dimentichiamoci, però, che la versione di ChatGPT di cui possiamo usufruire gratuitamente non è che un test per migliorare costantemente un prodotto da mettere sul mercato (quindi, a pagamento), che grazie a questi feedback porterà senza dubbio OpenAI a concentrarsi sul riportare la qualità dei risultati agli standard che l’hanno resa famosa. D’altra parte, non nego di essere rimasta sorpresa (e frustrata) quando ho constatato che il chatbot mi stava fornendo risposte non coerenti: forse alla base della forte asprezza delle accuse rivolte all’organizzazione c’è proprio la confusione provocata dal vedere che anche una tecnologia da sempre reputata avanzata e affidabile possa sbagliare o dare informazioni fuorvianti.
Insomma, che ci sia voluto qualche mese di rodaggio da parte degli utenti o qualche conseguenza indesiderata delle modifiche apportate dalla casa madre, abbiamo finalmente scoperto che anche ChatGPT ha i suoi limiti. L’intelligenza artificiale, per quanto impressionante, è pur sempre sviluppata da menti umane, imperfette per natura e artefici di strumenti che la possano agevolare, ma non sostituire: dal dibattito su ChatGPT scaturisce un’ulteriore conferma che il giorno in cui la tecnologia ne possa prendere il nostro posto in tutto e per tutto sia ancora lontano.
Giulia Cucchetti