ARTFEED — Contemporary Art Intelligence

I LLM di base falliscono nei primi token di pianificazione, secondo uno studio

ai-technology · 2026-05-20

Un recente studio pubblicato su arXiv (2605.16874) indica che i modelli di ragionamento di grandi dimensioni (LRM) superano significativamente i LLM di base nei compiti di ragionamento. Tuttavia, questa disparità è in gran parte concentrata su un numero limitato di token decisionali iniziali. I ricercatori che hanno esaminato Qwen3-0.6B hanno scoperto che solo circa l'8% dei token generati evidenzia le notevoli differenze tra i modelli di base e quelli di ragionamento. Questi token critici emergono all'inizio delle risposte, hanno 17 volte più probabilità di essere correlati alla pianificazione e si allineano con un'alta incertezza nei modelli di base. I risultati implicano che i modelli di base lottano principalmente in questi primi punti di pianificazione, suggerendo che il perfezionamento di alcuni token decisionali potrebbe migliorare le capacità di ragionamento.

Fatti principali

  • arXiv:2605.16874
  • I modelli di ragionamento di grandi dimensioni (LRM) superano i LLM di base nei benchmark di ragionamento
  • Il divario base-ragionamento è stato studiato tramite la divergenza distribuzionale a livello di token
  • Solo circa l'8% dei token rappresenta la divergenza saliente su Qwen3-0.6B
  • I token di divergenza si concentrano all'inizio delle risposte
  • I token di divergenza sono 17 volte più arricchiti in decisioni legate alla pianificazione
  • I token di divergenza coincidono con un'alta incertezza del modello di base
  • I modelli di base falliscono principalmente nei primi punti di pianificazione

Entità

Fonti