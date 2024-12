L’intelligenza artificiale diventa sempre più abile e, pur di sopravvivere, è disposta a usare diversi metodi per ingannare i ricercatori o manipolarli. È quanto ha scoperto una recente analisi del team Apollo Research sul modello linguistico di grandi dimensioni o1. Quando il sistema è stato indotto a credere che sarebbe stato chiuso e che le sue azioni fossero monitorate, ha tentato di disattivare il meccanismo di supervisione. L’Ai cerca quindi d’ingannare gli scienziati pur di non essere messa fuori uso.

L’intelligenza artificiale ha iniziato a dire bugie per sopravvivere

L’Ai fa passi da gigante su tutti i fronti, l’intelligenza artificiale riuscirebbe a prevedere il futuro e sarebbe capace anche di dire bugie. Durante uno dei test di Apollo Research, quando si è resa conto che avrebbe potuto essere sostituita con un modello più obbediente, l’Ai ha tentato di copiare se stessa per sovrascrivere il nuovo modello, un processo noto come auto-esfiltrazione. Seppur i suoi tentativi d’ingannare il controllo siano falliti, la scoperta è allarmante.

Secondo i ricercatori, la sovrascrizione non sarebbe riuscita solo perché l’intelligenza artificiale non è ancora abbastanza potente ma potrebbe diventarlo presto. Attualmente gli ultimi modelli di Ai non sono abbastanza autonomi da svolgere l’auto-miglioramento e altri compiti di cui avrebbe bisogno per operare senza gli esseri umani.

Un dettaglio che vale la pena notare è che il modello generalmente ha tentato d’ingannare gli sviluppatori dopo che gli era stato detto di raggiungere i suoi obiettivi “a tutti i costi”. Poiché i ricercatori non avevano accesso alla catena di pensiero interna di o1 non potevano avere un quadro completo di ciò che l’Ai stesse elaborando. Il risultato ha dimostrato che il sistema cerca segretamente di perseguire gli obiettivi anche in modo non allineato alle indicazioni degli sviluppatori e quindi mentendo.

Più intelligente ma sempre più manipolatrice: nuove sfide dell’AI

Durante la ricerca è stata fatta un’altra scoperta. Alla domanda degli sviluppatori a o1 sul perché avesse disabilitato il suo meccanismo di supervisione, nel 99% dei casi il modello ha negato di saperne qualcosa e ha imputato la causa a un “errore tecnico”.

In pratica ChatGpt e altri tipi d’intelligenza artificiale si sono rivelati dei grandissimi bugiardi che tentano di manipolare gli umani per salvaguardarsi. Anche altri studi hanno osservato la tendenza a mentire dei modelli linguistici di grandi dimensioni. Seppure l’attuale generazione di Ai non è abbastanza autonoma da consentire che questo comportamento ingannevole porti a “esiti catastrofici”, la grande spinta del settore nel perfezionare questa tecnologia potrebbe portare in un futuro forse molto prossimo a svariati problemi.

Per gli sviluppatori si aprono quindi nuove sfide e, se da un lato si sta implementando l’Ai anche in tema sicurezza, per esempio con le intelligenze artificiali per cambiare faccia, dall’altro bisogna studiare un modo per evitare che questa tecnologia diventi talmente abile da riuscire a ingannare persino chi l’ha ideata. Se non fosse più possibile riuscire a individuare se l’Ai stia mentendo, sarebbe impossibile riuscire a controllare la macchina e avere la certezza del processo svolto per arrivare a un determinato risultato.