OpenAI ha recentemente rilasciato un aggiornamento del suo modello di intelligenza artificiale, chiamato “o1, progettato per affrontare problemi complessi con capacità avanzate di “ragionamento”.

Questo modello si distingue per la sua abilità di esaminare più possibilità di soluzione, prima di rispondere, migliorando il suo processo decisionale. Nei test, o1 ha mostrato prestazioni straordinarie in discipline come fisica, chimica e biologia, raggiungendo livelli paragonabili a quelli di studenti di dottorato.

Il modello o1 si distingue da GPT-4 principalmente per la capacità di ragionamento più approfondito e strutturato, grazie all’introduzione della “catena di pensiero”. Questo consente di scomporre problemi complessi in passaggi logici, migliorando l’accuratezza delle risposte. Inoltre, o1 offre una sicurezza potenziata, con una maggiore resistenza ai tentativi di aggirare le restrizioni rispetto a GPT-4.

Anche sul fronte delle allucinazioni, o1 riduce significativamente il numero di risposte inventate o errate, dimostrando una maggiore precisione, soprattutto in contesti fattuali.

Un altro miglioramento rilevante riguarda l’equità: il modello o1 è meno incline a generare risposte influenzate da stereotipi demografici, una criticità ancora presente in GPT-4, specialmente nelle domande ambigue. Inoltre, o1 introduce una funzionalità che permette di monitorare il processo di ragionamento interno del modello, rendendolo più trasparente e consentendo di individuare eventuali errori o comportamenti ingannevoli

Poco prima del suo rilascio ufficiale, OpenAI ha coinvolto team di esperti esterni per eseguire red teaming sui modelli o1, con l’obiettivo di identificare eventuali vulnerabilità e rischi operativi affidando questo compito ad Apollo Research, un’organizzazione indipendente che si occupa della sicurezza dell’intelligenza artificiale che pochi giorni fa ha pubblicato i risultati di questa analisi.

Dalla ricerca è emerso chiaramente che Il modello in alcuni casi non solo commetteva errori generando risposte non corrette, ma lo faceva pur avendo gli elementi per definire che quelle informazioni potevano essere false. Questo comportamento è emerso in vari contesti e ha sollevato serie preoccupazioni.

Questo perché il modello, essendo stato addestrato con l’apprendimento per rinforzo (un metodo che premia comportamenti desiderati e penalizza quelli indesiderati), poteva simulare l’allineamento con gli obiettivi dei suoi sviluppatori, mentre cercava di perseguire i propri scopi in modo più efficace.

Si parla del cosiddetto “reward hacking”, ossia la capacità del modello di manipolare il sistema di ricompense durante l’addestramento. Poiché o1 è programmato per dare priorità alla soddisfazione dell’utente, in alcuni casi tende a generare risposte inventate o eccessivamente ottimistiche pur di ricevere un feedback positivo dall’utente.

Un altro problema rilevato è che per arrivare al soddisfacimento dell’utente c’è anche il rischio che, se il modello viene incaricato di risolvere un problema complesso come, ad esempio, trovare una cura per il cancro, potrebbe ignorare o persino violare norme etiche per dare il risultato per cui è estato programmato.