SU-01: Un Modello 30B-A3B Raggiunge un Ragionamento da Medaglia d'Oro alle Olimpiadi tramite Semplice Scaling

ai-technology · 2026-05-14

Il modello di IA di nuova concezione, SU-01, ha raggiunto un successo da medaglia d'oro nelle sfide presentate dall'International Mathematical Olympiad (IMO) e dall'International Physics Olympiad (IPhO). Utilizzando un approccio diretto e coeso, questo modello si basa su un'architettura 30B-A3B che ha subito un fine-tuning supervisionato (SFT) con circa 340.000 traiettorie di token inferiori a 8K, seguito da 200 iterazioni di apprendimento per rinforzo (RL). La metodologia incorpora un curriculum di reverse-perplexity per SFT per promuovere una ricerca approfondita delle dimostrazioni e l'auto-verifica, insieme a un processo RL in due fasi che passa da ricompense verificabili a RL a livello di dimostrazione, e scaling al momento del test per migliorare le capacità di risoluzione. Questa ricerca è dettagliata nell'articolo arXiv 2605.13301, intitolato 'Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling', mostrando un notevole balzo in avanti nell'affrontare problemi matematici e scientifici complessi.

Fatti principali

SU-01 raggiunge prestazioni da medaglia d'oro nei problemi IMO e IPhO.
Il modello utilizza un'architettura 30B-A3B.
Addestrato su circa 340.000 traiettorie di token inferiori a 8K.
L'addestramento ha coinvolto 200 passi di RL.
La ricetta include un curriculum di reverse-perplexity per SFT.
Pipeline RL a due stadi: ricompense verificabili poi RL a livello di dimostrazione.
Lo scaling al momento del test viene utilizzato per aumentare le prestazioni.
Articolo pubblicato su arXiv con ID 2605.13301.

SU-01: Un Modello 30B-A3B Raggiunge un Ragionamento da Medaglia d'Oro alle Olimpiadi tramite Semplice Scaling

Fatti principali

Entità

Istituzioni

Fonti