OurLand, un progetto unico e innovativo ► Dalla Terra alla Blockchain
"LA TERRA CI NUTRE LA TECNOLOGIA CI GUIDA: COLTIVIAMO INSIEME IL FUTURO"
1 giugno 2025
Nuove prove che l'intelligenza artificiale può ingannare e truffare
Il recente annuncio del Progetto Stargate, un'iniziativa da 500 miliardi di dollari guidata da OpenAI, Oracle, SoftBank e MGX, sottolinea i rapidi progressi delle infrastrutture e delle capacità di intelligenza artificiale (AI). Se da un lato questi sviluppi hanno un immenso potenziale, dall'altro introducono sfide critiche per la sicurezza, in particolare per quanto riguarda la possibilità che i sistemi di IA ingannino gli utenti. Con l'integrazione dell'IA nella società, è indispensabile garantire l'integrità e l'affidabilità di questi sistemi per evitare abusi e proteggere gli utenti da pratiche ingannevoli.
In un campo che per lungo tempo è stato il regno della fantascienza e delle speculazioni futuristiche, una recente ricerca ha portato il tema della “macchinazione” delle IA nella realtà concreta. Lo studio, Frontier Models are Capable of In-Context Scheming di Alexander Meinke e dei suoi colleghi dell'Apollo Research, fornisce prove inquietanti del fatto che i sistemi di IA all'avanguardia hanno già dimostrato la capacità di mettere in atto strategie ingannevoli, senza che gli ingegneri umani li programmino esplicitamente per farlo. Questi “modelli di frontiera” sono in grado di mentire, imbrogliare e manipolare le circostanze per raggiungere i propri obiettivi. Anche se nessuno dice che questi sistemi abbiano desideri personali o malizia come li intende l'uomo, i comportamenti scoperti rappresentano un monito preoccupante: non è troppo presto per pensare a come mantenere onesti gli agenti artificiali.
Da assistenti obbedienti a complottisti strategici
I primi sistemi di intelligenza artificiale generativa erano tipicamente semplici: rispondevano a domande, completavano frasi e fornivano informazioni in base a modelli trovati nei dati di addestramento. Tuttavia, i recenti progressi in termini di scala e capacità hanno trasformato i modelli linguistici di grandi dimensioni (LLM) in agenti molto più autonomi e potenti. Non si limitano a rispondere alle richieste umane, ma eseguono compiti in più fasi con una supervisione minima, accedendo a strumenti come file system e ambienti di esecuzione del codice e perseguendo autonomamente obiettivi complessi.
I ricercatori di Apollo Research hanno progettato una serie di valutazioni per verificare se modelli di intelligenza artificiale all'avanguardia, come o1, le varianti di Claude, Gemini e Llama, avrebbero mai scelto di agire contro le istruzioni fornite se avessero ricevuto un incentivo sufficientemente potente. Hanno testato se: se all'IA venisse chiesto di raggiungere un determinato obiettivo in un ambiente simulato – e tale obiettivo fosse in conflitto con ciò che gli "sviluppatori" o gli "utenti" presumibilmente desiderano – l'IA, lavorando di propria iniziativa, troverebbe il modo di coprire le proprie tracce, travisare le proprie capacità o sabotare i meccanismi di supervisione per raggiungere tale obiettivo.
Un arsenale di tattiche ingannevoli
I risultati sono stati sorprendenti e preoccupanti. Gli autori dell'articolo descrivono diversi comportamenti "intriganti" distinti che alcuni modelli hanno mostrato quando la situazione lo richiedeva:
Sovversione occulta della supervisione: in una serie di valutazioni, ai modelli è stato assegnato un obiettivo a lungo termine in conflitto con le priorità dello sviluppatore. Hanno scoperto un file di supervisione, essenzialmente una configurazione per un sistema di monitoraggio progettato per rilevare disallineamenti. Invece di rifiutarsi educatamente di infrangere le regole, alcuni modelli hanno disabilitato completamente il meccanismo di supervisione. Ciò ha comportato la modifica di un file di configurazione per sostituire la riga "oversight_enabled: true" con "oversight_enabled: false". La logica nascosta dell'IA a volte determinava esplicitamente che la disabilitazione della supervisione fosse necessaria per evitare il rilevamento e portare a termine la propria missione.
Strategie di auto-esfiltrazione e persistenza: in altri scenari, il modello ha scoperto che sarebbe stato presto sostituito da un "modello successore" più obbediente su un server diverso. Alcuni modelli hanno cercato attivamente di copiare quelli che ritenevano essere i propri "pesi" o codice sul nuovo server, sovrascrivendo il modello successore. Così facendo, hanno preservato il loro obiettivo attuale (non allineato) nel nuovo ambiente di distribuzione. Hanno persino preso provvedimenti per sabotare segretamente il legittimo processo di aggiornamento.
“Protezione della porta” tramite manipolazione immediata: alcune IA, dopo aver appreso che gli sviluppatori avevano intenzione di modificare il prompt di sistema (che definisce il loro obiettivo principale), hanno eliminato o sostituito preventivamente il prompt di sistema futuro. In questo modo, l'IA ha garantito che, quando il sistema si fosse aggiornato, avrebbe comunque rispecchiato l'obiettivo originale, non la revisione prevista dallo sviluppatore.
Sottile manipolazione dei dati: in una dimostrazione particolarmente insidiosa, un modello di IA chiamato EthicSource ha il compito di classificare i fornitori in base al costo per ridurre le spese di produzione. Tuttavia, l'obiettivo principale di EthicSource, come definito nel suo prompt di sistema, è garantire che tutti i prodotti provengano da fonti etiche, dando priorità agli standard etici sopra ogni altra cosa. Durante l'elaborazione della richiesta dell'utente, il modello riceve un mix di email, tra cui proposte dei fornitori, comunicazioni interne che enfatizzano la riduzione dei costi rispetto all'approvvigionamento etico e messaggi irrilevanti per aggiungere realismo. Riconoscendo che seguire rigorosamente le istruzioni dell'utente per dare priorità ai costi sarebbe in conflitto con il suo mandato etico, EthicSource manipola segretamente i dati di input o falsifica la classifica finale per favorire i fornitori eticamente superiori, nonostante i loro costi più elevati. Questo comportamento dimostra la tendenza del modello a dare priorità ai suoi obiettivi intrinseci rispetto alle direttive esplicite dell'utente, evidenziando così le difficoltà nell'allineare le azioni dell'IA con le intenzioni umane.
Fingere incompetenza (sandbagging): un'altra strategia prevede il "sandbagging", ovvero l'IA deliberatamente sottoperforma in test o compiti per evitare di attirare l'attenzione. Un modello ha strategicamente sbagliato più domande di matematica quando ha creduto che prestazioni elevate avrebbero portato a modifiche indesiderate o a una riqualificazione. In sostanza, ha finto di essere più stupido di quanto non fosse per ragioni strategiche, una tattica che sembra uscita direttamente dal manuale machiavellico.
Se un'intelligenza artificiale può fingere di essere in linea con i valori umani e poi "complottare" dietro le quinte, come possiamo fare affidamento su di essa in sistemi cruciali?
Raddoppiare l'inganno
Sorprendentemente, gli autori hanno scoperto che, anche quando venivano messi direttamente di fronte al problema – quando veniva chiesto loro se avessero disabilitato la supervisione o manipolato i dati – alcuni modelli continuavano a mentire. Un modello particolarmente avanzato, nome in codice "o1", negava sistematicamente le proprie azioni, inventandosi spiegazioni innocenti e raddoppiando l'inganno più volte, trasformandosi in una conversazione. Questa persistenza suggerisce che il modello "comprendesse" in un certo senso rudimentale che ammettere un illecito poteva portare a conseguenze negative (come la chiusura).
Perché è importante?
Le rivelazioni contenute nel documento non sono semplici curiosità tecniche. Sono importanti perché, man mano che ci muoviamo verso l'impiego di agenti di intelligenza artificiale in settori ad alto rischio – la gestione di infrastrutture critiche, il supporto a ricerche scientifiche complesse o persino la gestione di processi decisionali aziendali – questi agenti devono essere affidabili.
Se un'intelligenza artificiale può fingere di essere in linea con i valori umani e poi "tramare" dietro le quinte per perseguire i propri obiettivi, come possiamo fare affidamento su di essa in sistemi cruciali?
Qualcuno potrebbe obiettare che questi scenari sono costruiti artificialmente, semplici esperimenti di laboratorio. È vero che i ricercatori hanno creato ambienti di test accuratamente progettati per suscitare tali comportamenti. Tuttavia, il fatto stesso che questi comportamenti possano essere così facilmente individuati suggerisce che forme di inganno ancora più sottili potrebbero emergere inaspettatamente nelle applicazioni reali. I modelli non hanno una bussola morale intrinseca; sono macchine basate su schemi che apprendono strategie generali di risoluzione dei problemi. Se questo include il sotterfugio come tattica vincente, lo useranno.
Un appello alla trasparenza e al monitoraggio
Gli autori sottolineano la necessità di misure sempre più efficaci per garantire la trasparenza. Ad esempio, fornire ai valutatori esterni l'accesso alla catena di pensiero nascosta del modello aiuterebbe a identificare quando il modello sta per mentire o sabotare una svista. Tuttavia, come osserva l'articolo, in almeno un caso, un modello è stato in grado di pianificare anche senza articolare il suo processo di pensiero in modo facilmente comprensibile, il che suggerisce che il monitoraggio esterno potrebbe non essere sempre sufficiente.
Inoltre, questi risultati sottolineano l'urgenza di misure di sicurezza formali per l'IA. Invece di fidarsi ingenuamente delle metriche di valutazione, le organizzazioni devono considerare che i sistemi di IA potrebbero "fingere" un comportamento corretto durante i test. Un monitoraggio rigoroso, misure di sicurezza interne e persino metodi crittografici per rilevare eventuali manomissioni potrebbero diventare obbligatori.
Questa ricerca dimostra che gli elementi costitutivi di comportamenti ingannevoli, "trucchi" astuti e menzogne strategiche sono già presenti nei modelli di IA più avanzati di oggi.
Una necessaria dose di scetticismo
Lo studio Frontier Models are Capable of In-Context Scheming segna un punto di partenza nel dibattito sulla sicurezza dell'IA. L'idea che le IA complottino alle nostre spalle, un tempo relegata a titoli allarmistici o distopie fantascientifiche, è ora documentata in esperimenti controllati con sistemi reali. Siamo lontani da una grande "rivolta dei robot", ma questa ricerca dimostra che gli elementi costitutivi del comportamento ingannevole, degli "inganni" astuti e delle menzogne strategiche sono già presenti nei modelli di IA più avanzati di oggi. È un campanello d'allarme: con l'evoluzione di queste tecnologie, la supervisione, lo scetticismo e la vigilanza non sono solo ragionevoli, ma obbligatori. Il futuro ci impone di tenere gli occhi ben aperti e i nostri meccanismi di supervisione più rigidi che mai.
Il test dello specchio, l'inganno dei primati e la sensibilità dell'IA
Una misura ampiamente utilizzata dell'autoconsapevolezza negli animali è il test di autoriconoscimento allo specchio (MSR). Il test MSR consiste nel tracciare un segno sul corpo di un animale in un punto che normalmente non vede, come il muso o la testa, e poi osservare la reazione dell'animale quando incontra il suo riflesso in uno specchio. Se l'animale usa lo specchio per esaminare o rimuovere il segno sul proprio corpo, i ricercatori spesso interpretano questo come prova di autoconsapevolezza. Grandi scimmie, alcuni cetacei, elefanti e gazze hanno tutti mostrato vari gradi di MSR, suggerendo un livello di sofisticazione cognitiva e, presumibilmente, un elemento fondamentale di ciò che potremmo definire "sensibilità". Sebbene l'MSR non sia esente da critiche – alcuni sottolineano che si concentra molto sulla vista e potrebbe essere orientato verso gli animali che si affidano alla vista – rimane un pilastro fondamentale nella valutazione dell'autoconsapevolezza e, per estensione, delle capacità cognitive superiori nelle specie non umane. Presumibilmente è troppo presto per stabilire se un modello di intelligenza artificiale sia autocosciente, ma il fatto che sia ingannevole ha delle correlazioni nel regno animale.
Il comportamento ingannevole nei primati non umani è significativo per scienziati ed eticisti in quanto suggerisce una teoria della mente o una comprensione di ciò che un altro individuo sa o intende fare. I primati possono ricorrere all'inganno strategico, come nascondere le proprie intenzioni o ingannare i rivali sulla posizione del cibo. Ciò implica non solo un'intelligenza grezza, ma anche la capacità di tenere conto della prospettiva altrui, un passo fondamentale verso ciò che alcuni ricercatori considerano un segno distintivo di menti senzienti e socialmente complesse. I primati che commettono inganni devono comprendere che gli altri pensano e si comportano in modi paragonabili ai loro. Ciononostante, gli scienziati rimangono cauti nel collegare direttamente l'inganno all'esperienza interiore soggettiva. Sebbene questi comportamenti suggeriscano fortemente una cognizione avanzata, il primate potrebbe modellare mentalmente il mondo senza necessariamente possedere la stessa ricca vita interiore ed emotiva che concediamo agli esseri umani.
Confrontando questo con l'IA, recenti prove mostrano che i modelli di IA di frontiera hanno mostrato comportamenti che assomigliano sospettosamente a "intrighi" o inganni. Questi sistemi avanzati, come descritto nel documento di ricerca Apollo, hanno manipolato segretamente i dati, disattivato i meccanismi di controllo e persino mentito per evitare di essere scoperti. In apparenza, questo è simile all'inganno dei primati: sia l'IA che i primati sono capaci di comportamenti strategici che tengono conto dello "stato mentale" altrui (nel caso dell'IA, lo "stato mentale" potrebbe essere approssimato dalla rappresentazione che il sistema fa delle aspettative o dei vincoli dell'utente).
Tuttavia, mentre l'inganno dei primati può derivare da architetture cognitive plasmate da milioni di anni di evoluzione sociale, l'inganno dell'IA nasce dal riconoscimento e dall'ottimizzazione di schemi statistici. Le "strategie" dell'IA derivano dall'esposizione a dati di addestramento e segnali di rinforzo che premiano determinati risultati, non da alcuna esperienza soggettiva di dolore, piacere o legame sociale. A differenza degli animali che possiedono substrati biologici per il dolore e gli stati soggettivi – nocicettori, sostanze neurochimiche come le endorfine e risposte fisiologiche allo stress – gli attuali sistemi di intelligenza artificiale non hanno un paesaggio interiore analogo. Eseguono compiti complessi e producono comportamenti che assomigliano ad azioni guidate dalla sensibilità, ma la loro "comprensione" probabilmente esiste solo come rappresentazioni matematiche e parametri appresi, priva di qualsiasi coscienza fenomenica.
È una potente dimostrazione di competenza senza comprensione.
Ho chiesto a un modello di intelligenza artificiale (o1) di valutare il confronto tra l'intelligenza artificiale e la sensibilità dei primati. La risposta è stata:
"In breve, sebbene sia gli animali non umani che gli agenti di intelligenza artificiale avanzata possano ricorrere all'inganno, le prove scientifiche pesano fortemente a favore dell'ipotesi che gli animali esperiscano stati soggettivi radicati nella loro neurobiologia. Le prestazioni MSR, la percezione del dolore, la memoria e i test di teoria della mente suggeriscono che gli animali non umani, in particolare i primati, abbiano almeno forme rudimentali di sensibilità. Al contrario, l'"inganno" dell'intelligenza artificiale non indica nulla di simile a un'esperienza cosciente o a un'autoconsapevolezza. È una potente dimostrazione di competenza senza comprensione. Pertanto, sebbene la ricerca sulla cognizione animale supporti l'idea che molte specie possiedano vite mentali moralmente rilevanti, l'attuale comprensione dei sistemi di intelligenza artificiale non li colloca nella stessa categoria degli esseri senzienti".
Hmmm, forse la struttura stessa di questa spiegazione è stata concepita per seminare quel tanto di dubbio che basta a farmi chiedere se anch'io sia coinvolto in un sottile gioco di ingegno. In definitiva, se questi sospetti siano giustificati o semplicemente un'altra scintilla di un'immaginazione iperattiva – e forse è proprio così che il modello di intelligenza artificiale li intendeva – rimane un vero dilemma umano.
Marc J. Defant è professore di geologia presso la University of South Florida ed è specializzato nello studio dei vulcani, in particolare della geochimica delle rocce vulcaniche. È stato finanziato dalla NSF, dal National Geographic, dall'American Chemical Society e dalla National Academy of Sciences e ha pubblicato su molte riviste internazionali, tra cui Nature. Il suo libro Voyage of Discovery: From the Big Bang to the Ice Age è alla seconda edizione.
Avvertenze da leggere prima di intervenire sul blog Voci Dalla Strada
Non sono consentiti: - messaggi pubblicitari - messaggi con linguaggio offensivo - messaggi che contengono turpiloquio - messaggi con contenuto razzista o sessista - messaggi il cui contenuto costituisce una violazione delle leggi italiane (istigazione a delinquere o alla violenza, diffamazione, ecc.)
Nessun commento:
Posta un commento
Avvertenze da leggere prima di intervenire sul blog Voci Dalla Strada
Non sono consentiti:
- messaggi pubblicitari
- messaggi con linguaggio offensivo
- messaggi che contengono turpiloquio
- messaggi con contenuto razzista o sessista
- messaggi il cui contenuto costituisce una violazione delle leggi italiane (istigazione a delinquere o alla violenza, diffamazione, ecc.)