OpenAI ha annunciato la nuova famiglia di modelli o3, che si distingue per risultati straordinari nei benchmark tradizionali. Tuttavia, dichiarare che questi modelli si avvicinino all’intelligenza artificiale generale (AGI) rimane un’affermazione audace e controversa.

Un’evoluzione rapida e strategica
La presentazione dell’o3 arriva pochi mesi dopo il debutto dell’o1, avvenuto a settembre, segnando un’accelerazione nei progressi dell’azienda. OpenAI ha saltato il nome o2 per evitare possibili conflitti di marchio con il noto operatore britannico O2. La nuova famiglia di modelli punta a consolidare la posizione di OpenAI nel panorama dell’intelligenza artificiale.
L’o1, introdotto come “modello di ragionamento”, si è distinto per un approccio innovativo all’apprendimento. Progettato per dedicare più tempo alla risoluzione dei problemi, esplorando percorsi alternativi e riconoscendo i propri errori, ha dimostrato capacità di problem solving simili a quelle umane. Sebbene la sua velocità di elaborazione sia inferiore rispetto ai modelli precedenti, compensa con una precisione notevolmente superiore.
Prestazioni impressionanti
Secondo OpenAI, l’o1, nonostante sia ancora in fase iniziale, è già in grado di affrontare test complessi in fisica, chimica, biologia e matematica con un’efficienza paragonabile a quella di un dottorando. L’o3, annunciato più recentemente, rappresenta un significativo miglioramento rispetto al suo predecessore. Nei benchmark tradizionali, ha ottenuto un punteggio complessivo superiore del 40% rispetto all’o1. Durante una competizione di codifica su Codeforces, l’o3 ha raggiunto un punteggio di 2727, superando persino il capo ricercatore di OpenAI.
Nel difficile test matematico EpochAI Frontier Math, o3 ha ottenuto un risultato del 25,2%, contro il 2% dei migliori modelli precedenti. Inoltre, nel GPQA Diamond, che valuta conoscenze universitarie in biologia, fisica e chimica, ha raggiunto un impressionante 87,7%.
Nuove frontiere nei test complessi
Uno dei limiti tradizionali dei modelli di intelligenza artificiale è la difficoltà nei compiti meno comuni, come la pianificazione e il riconoscimento di schemi visivi. Tuttavia, l’o3 ha infranto questa barriera: nel test ARC-AGI, progettato per valutare capacità di riconoscimento avanzato, ha raggiunto il 75,7% con tempi di calcolo standard e l’87,5% con tempi massimi, superando la media umana dell’85%.
Inoltre, grazie alla possibilità di regolare il “tempo di ragionamento”, o3 può adattarsi a diverse esigenze di calcolo, migliorando ulteriormente le sue prestazioni con tempi di elaborazione più lunghi.
Verso l’intelligenza artificiale generale?
OpenAI ha affermato che, in alcune circostanze, l’o3 mostra caratteristiche vicine all’AGI. Tuttavia, questa dichiarazione è tanto ambiziosa quanto strategica. Infatti, secondo un accordo con Microsoft, OpenAI potrebbe cessare di condividere le sue tecnologie più avanzate con l’azienda di Redmond una volta raggiunto il livello AGI, rafforzando ulteriormente la sua indipendenza commerciale.
Per ora, l’o3 è ancora in fase di test di sicurezza e sarà reso disponibile al pubblico solo a partire dal 2025. Nel frattempo, la sua introduzione solleva nuove sfide, sia per la comunità scientifica sia per gli sviluppatori di benchmark, che dovranno progettare test ancora più complessi per valutare i modelli futuri.