Introduzione ai modelli o3 e o3-mini
OpenAI ha recentemente svelato i suoi ultimi modelli, o3 e o3-mini, durante l’evento annuale “shipmas”. Questi nuovi modelli rappresentano un’evoluzione significativa rispetto ai precedenti o1, disponibili da pochi mesi. Il CEO di OpenAI, Sam Altman, ha spiegato che il salto dal nome o2 è stato fatto per rispetto nei confronti di Telefónica, proprietaria dell’operatore O2. Attualmente, i nuovi modelli non sono accessibili al pubblico, ma la versione preliminare di o3-mini è disponibile per i ricercatori, con una disponibilità generale prevista entro la fine di gennaio 2025.
Miglioramenti nelle capacità di ragionamento
I modelli o3 sono stati sviluppati utilizzando la tecnica dell’apprendimento con rinforzo, che consente loro di “pensare” prima di fornire risposte.
Questo approccio, sebbene aumenti la latenza, porta a risultati significativamente migliori in ambiti complessi come matematica, fisica e programmazione. A differenza dei modelli precedenti, la famiglia o3 offre la possibilità di modificare la durata del ragionamento, permettendo agli utenti di scegliere tra livelli di potenza di elaborazione bassi, medi e alti.
Performance e benchmark
Secondo il benchmark ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence), il modello o3 ha raggiunto un punteggio dell’87,5%, quasi triplo rispetto a o1. Questo test valuta la capacità di un modello di acquisire nuove abilità al di fuori dei dati utilizzati per l’addestramento. Tuttavia, uno degli sviluppatori di ARC-AGI ha sottolineato che, nonostante i progressi, o3 non può ancora essere considerato una vera intelligenza artificiale generale (AGI).
Con la prossima versione del benchmark, si prevede che il punteggio di o3 scenda sotto il 30%, mentre un essere umano può raggiungere punteggi superiori al 95%.
Risultati nei test di matematica e scienze
Oltre a superare i concorrenti nei benchmark relativi a matematica, fisica, biologia e chimica, o3 ha dimostrato prestazioni eccezionali anche nella programmazione. Ad esempio, nel test FrontierMach di Epoch, o3 è in grado di risolvere il 25,2% dei problemi matematici, mentre nessun altro modello ha superato il 2%. Questi risultati evidenziano non solo l’avanzamento tecnologico di OpenAI, ma anche il potenziale di applicazione pratica di questi modelli in vari settori.