OpenAI e la sicurezza dei modelli AI: monitor di ragionamento

Il nuovo sistema di monitoraggio di OpenAI

OpenAI ha recentemente annunciato l’introduzione di un innovativo sistema di monitoraggio, denominato “monitor di ragionamento”, per i suoi modelli di intelligenza artificiale, in particolare i più recenti o3 e o4-mini. Questo sistema è stato progettato per affrontare le crescenti preoccupazioni riguardo ai rischi biologici e chimici associati all’uso di tecnologie AI avanzate. I nuovi modelli, sebbene più potenti e capaci di rispondere a una vasta gamma di domande, presentano anche potenziali pericoli, specialmente quando si tratta di argomenti delicati come la creazione di armi biologiche.

Come funziona il monitor di ragionamento

Il monitor di ragionamento è stato addestrato per analizzare le politiche di contenuto di OpenAI e ha il compito di identificare richieste che potrebbero comportare rischi significativi.

Durante i test, i modelli hanno dimostrato di rifiutare di rispondere a domande pericolose nel 98,7% dei casi, un risultato che evidenzia l’efficacia del sistema. Tuttavia, OpenAI è consapevole che i malintenzionati potrebbero tentare di aggirare queste misure di sicurezza, rendendo il controllo umano un elemento cruciale nel processo di monitoraggio.

Le sfide della sicurezza nell’intelligenza artificiale

Nonostante i progressi, OpenAI ha riconosciuto che i modelli o3 e o4-mini non superano la soglia di “alto rischio” per le minacce biologiche. Le versioni precedenti di questi modelli si sono dimostrate più inclini a fornire risposte su argomenti sensibili rispetto ai loro predecessori, come o1 e GPT-4. Questo ha sollevato un campanello d’allarme all’interno dell’azienda, che ha deciso di intensificare gli sforzi per garantire la sicurezza dei suoi sistemi.

Critiche e preoccupazioni sulla sicurezza

Nonostante le misure adottate, alcuni esperti e ricercatori hanno espresso preoccupazioni riguardo all’approccio di OpenAI verso la sicurezza. Metr, uno dei partner di red-teaming dell’azienda, ha segnalato di aver avuto poco tempo per testare il modello o3 su benchmark per il comportamento ingannevole. Inoltre, la decisione di non rilasciare un rapporto sulla sicurezza per il modello GPT-4.1 ha suscitato ulteriori interrogativi sulla trasparenza e sull’impegno di OpenAI nella gestione dei rischi associati all’intelligenza artificiale.