I LLM di base falliscono nei primi token di pianificazione, secondo uno studio

ai-technology · 2026-05-20

Un recente studio pubblicato su arXiv (2605.16874) indica che i modelli di ragionamento di grandi dimensioni (LRM) superano significativamente i LLM di base nei compiti di ragionamento. Tuttavia, questa disparità è in gran parte concentrata su un numero limitato di token decisionali iniziali. I ricercatori che hanno esaminato Qwen3-0.6B hanno scoperto che solo circa l'8% dei token generati evidenzia le notevoli differenze tra i modelli di base e quelli di ragionamento. Questi token critici emergono all'inizio delle risposte, hanno 17 volte più probabilità di essere correlati alla pianificazione e si allineano con un'alta incertezza nei modelli di base. I risultati implicano che i modelli di base lottano principalmente in questi primi punti di pianificazione, suggerendo che il perfezionamento di alcuni token decisionali potrebbe migliorare le capacità di ragionamento.

Fatti principali

arXiv:2605.16874
I modelli di ragionamento di grandi dimensioni (LRM) superano i LLM di base nei benchmark di ragionamento
Il divario base-ragionamento è stato studiato tramite la divergenza distribuzionale a livello di token
Solo circa l'8% dei token rappresenta la divergenza saliente su Qwen3-0.6B
I token di divergenza si concentrano all'inizio delle risposte
I token di divergenza sono 17 volte più arricchiti in decisioni legate alla pianificazione
I token di divergenza coincidono con un'alta incertezza del modello di base
I modelli di base falliscono principalmente nei primi punti di pianificazione

Entità

—

Fonti

arXiv cs.AI — 2026-05-19