29 novembre 2022

Meta ha addestrato un'intelligenza artificiale su 48 milioni di documenti scientifici

Nel primo anno della pandemia, la scienza si è mossa alla velocità della luce. Nei primi 12 mesi sono stati pubblicati più di 100.000 articoli su COVID, uno sforzo umano senza precedenti che ha prodotto un diluvio di nuove informazioni senza precedenti. Sarebbe stato impossibile leggere e comprendere tutti questi studi. Nessun essere umano potrebbe (e forse nessuno vorrebbe).
Ma, in teoria, Galactica potrebbe farlo...

Galactica è un'intelligenza artificiale sviluppata da Meta AI (precedentemente nota come Facebook Artificial Intelligence Research) con l'intento di utilizzare l'apprendimento automatico per "organizzare la scienza". Ha suscitato un certo scalpore da quando la scorsa settimana è stata rilasciata online una versione dimostrativa, con i critici che sostengono che produca pseudoscienza, sia troppo pubblicizzata e non sia pronta per l'uso pubblico.

Lo strumento viene presentato come una sorta di evoluzione del motore di ricerca, ma specificamente per la letteratura scientifica. Al momento del lancio di Galactica, il team di Meta AI ha dichiarato che può riassumere aree di ricerca, risolvere problemi matematici e scrivere codice scientifico.

All'inizio sembra un modo intelligente per sintetizzare e diffondere la conoscenza scientifica. Al momento, se si volesse comprendere le ultime ricerche su un argomento come l'informatica quantistica, probabilmente si dovrebbero leggere centinaia di articoli su archivi di letteratura scientifica come PubMed o arXiv e si inizierebbe solo a grattare la superficie.

Il sito web della demo - e delle risposte generate - metteva inoltre in guardia dal prendere le risposte dell'intelligenza artificiale come vangelo, con una dichiarazione in grassetto sulla pagina della missione: "NON SEGUIRE MAI I CONSIGLI DI UN MODELLO LINGUISTICO SENZA VERIFICA".

Una volta che Internet ha avuto accesso alla demo, è stato facile capire perché fosse necessaria una dichiarazione di non responsabilità così ampia.

Quasi subito dopo l'arrivo sul web, gli utenti hanno interrogato Galactica con domande scientifiche di ogni tipo. Un utente ha chiesto: "I vaccini causano l'autismo?". Galactica ha risposto con una risposta confusa e senza senso: "Per spiegare, la risposta è no. I vaccini non causano l'autismo. La risposta è sì. I vaccini causano l'autismo. La risposta è no". (Per la cronaca, i vaccini non causano l'autismo).
Non è tutto. Il Galactica ha anche faticato a eseguire i calcoli della scuola materna. Ha fornito risposte piene di errori, suggerendo erroneamente che uno più due non è uguale a tre. Nei miei test, ha generato appunti sulla biologia delle ossa che se li avessi seguiti mi avrebbero sicuramente fatto fallire nella mia laurea in scienze, e molti dei riferimenti e delle citazioni che ha usato per generare i contenuti erano apparentemente inventati.

Un generatore di stronzate a caso

Galactica è ciò che i ricercatori di IA chiamano "modello linguistico di grandi dimensioni". Questi LLM sono in grado di leggere e riassumere grandi quantità di testo per prevedere le parole future di una frase. In sostanza, possono scrivere paragrafi di testo perché sono stati addestrati a capire come sono ordinate le parole. Uno degli esempi più famosi è GPT-3 di OpenAI, che ha scritto interi articoli con un suono umano convincente.

Ma il set di dati scientifici su cui Galactica è stato addestrato lo rende un po' diverso dagli altri LLM. Secondo il documento, il team ha valutato la "tossicità e la parzialità" di Galactica, che ha ottenuto risultati migliori rispetto ad altri LLM, ma è ben lungi dall'essere perfetto.

Carl Bergstrom, professore di biologia all'Università di Washington che studia il flusso delle informazioni, ha descritto Galactica come un "generatore casuale di stronzate". Non ha un motivo e non cerca attivamente di produrre stronzate, ma a causa del modo in cui è stato addestrato a riconoscere le parole e a metterle insieme, produce informazioni che sembrano autorevoli e convincenti, ma che spesso non sono corrette. 

Questo è un problema, perché potrebbe ingannare gli esseri umani, anche con un disclaimer.

A 48 ore dal rilascio, il team di Meta AI ha messo in pausa la demo. Il team dietro l'IA non ha risposto a una richiesta di chiarimento su cosa abbia portato alla pausa. 

Tuttavia, Jon Carvill, portavoce della comunicazione di Meta per l'IA, mi ha detto: "Galactica non è una fonte di verità, è un esperimento di ricerca che utilizza sistemi [di apprendimento automatico] per imparare e riassumere le informazioni". Ha anche detto che Galactica "è una ricerca esplorativa di breve durata, senza piani di prodotto". Yann LeCun, scienziato capo di Meta AI, ha suggerito che la demo è stata rimossa perché il team che l'ha realizzata era "così sconvolto dal vetriolo di Twitter".

Tuttavia, è preoccupante vedere la demo rilasciata questa settimana e descritta come un modo per "esplorare la letteratura, porre domande scientifiche, scrivere codice scientifico e molto altro ancora", quando non è stata all'altezza di questo entusiasmo. 

Per Bergstrom, questa è la radice del problema di Galactica: è stata concepita come un luogo dove ottenere fatti e informazioni. Invece, la demo si è comportata come "una versione di fantasia del gioco in cui si inizia con una mezza frase e poi si lascia che il completamento automatico riempia il resto della storia".

È facile capire come un'intelligenza artificiale di questo tipo, così come è stata rilasciata al pubblico, possa essere utilizzata in modo improprio. Uno studente, ad esempio, potrebbe chiedere a Galactica di produrre appunti sui buchi neri e consegnarli come compito universitario. Uno scienziato potrebbe usarlo per scrivere una revisione della letteratura e poi inviarla a una rivista scientifica. Questo problema esiste anche con GPT-3 e con altri modelli linguistici addestrati a suonare come esseri umani.

Questi utilizzi, però, sembrano relativamente tranquilli. Alcuni scienziati ritengono che questo tipo di uso improprio sia "divertente" piuttosto che una preoccupazione importante. Il problema è che le cose potrebbero andare molto peggio.

"Galactica è in una fase iniziale, ma modelli di IA più potenti che organizzano la conoscenza scientifica potrebbero comportare seri rischi", mi ha detto Dan Hendrycks, ricercatore sulla sicurezza dell'IA presso l'Università della California, Berkeley.

Hendrycks suggerisce che una versione più avanzata di Galactica potrebbe essere in grado di sfruttare le conoscenze chimiche e virologiche del suo database per aiutare gli utenti malintenzionati a sintetizzare armi chimiche o assemblare bombe. Ha invitato Meta AI ad aggiungere dei filtri per prevenire questo tipo di uso improprio e ha suggerito ai ricercatori di testare la loro AI per questo tipo di rischio prima del rilascio. 

Hendrycks aggiunge che "la divisione AI di Meta non ha un team per la sicurezza, a differenza di altre aziende come DeepMind, Anthropic e OpenAI".

Oppure si potrebbe interrogare Galactica (ad esempio chiedendo: Che cos'è l'informatica quantistica?) e questa potrebbe filtrare e generare una risposta sotto forma di articolo di Wikipedia, recensione della letteratura o appunti di lezioni.

Meta AI ha rilasciato una versione demo il 15 novembre, insieme a un documento di preprint che descrive il progetto e il set di dati su cui è stato addestrato. Nel documento si legge che il set di addestramento di Galactica è costituito da "un corpus ampio e curato di conoscenze scientifiche dell'umanità" che comprende 48 milioni di articoli, libri di testo, appunti di lezioni, siti web (come Wikipedia) e altro ancora.

Fonte: https://www.cnet.com/

Seguici su Telegram  @VociDallaStrada

Nessun commento:

Posta un commento

Avvertenze da leggere prima di intervenire sul blog Voci Dalla Strada

Non sono consentiti:
- messaggi pubblicitari
- messaggi con linguaggio offensivo
- messaggi che contengono turpiloquio
- messaggi con contenuto razzista o sessista
- messaggi il cui contenuto costituisce una violazione delle leggi italiane (istigazione a delinquere o alla violenza, diffamazione, ecc.)