I LLM di base falliscono nei primi token di pianificazione, secondo uno studio
Un recente studio pubblicato su arXiv (2605.16874) indica che i modelli di ragionamento di grandi dimensioni (LRM) superano significativamente i LLM di base nei compiti di ragionamento. Tuttavia, questa disparità è in gran parte concentrata su un numero limitato di token decisionali iniziali. I ricercatori che hanno esaminato Qwen3-0.6B hanno scoperto che solo circa l'8% dei token generati evidenzia le notevoli differenze tra i modelli di base e quelli di ragionamento. Questi token critici emergono all'inizio delle risposte, hanno 17 volte più probabilità di essere correlati alla pianificazione e si allineano con un'alta incertezza nei modelli di base. I risultati implicano che i modelli di base lottano principalmente in questi primi punti di pianificazione, suggerendo che il perfezionamento di alcuni token decisionali potrebbe migliorare le capacità di ragionamento.
Fatti principali
- arXiv:2605.16874
- I modelli di ragionamento di grandi dimensioni (LRM) superano i LLM di base nei benchmark di ragionamento
- Il divario base-ragionamento è stato studiato tramite la divergenza distribuzionale a livello di token
- Solo circa l'8% dei token rappresenta la divergenza saliente su Qwen3-0.6B
- I token di divergenza si concentrano all'inizio delle risposte
- I token di divergenza sono 17 volte più arricchiti in decisioni legate alla pianificazione
- I token di divergenza coincidono con un'alta incertezza del modello di base
- I modelli di base falliscono principalmente nei primi punti di pianificazione
Entità
—