Il ragionamento LLM come stato di decodifica dinamica attraverso transizioni di fase entropiche
Un nuovo articolo su arXiv (2605.22873) indaga quando il ragionamento a catena di pensiero (CoT) è vantaggioso per i modelli linguistici di grandi dimensioni. Gli autori scoprono che il CoT spesso produce guadagni marginali o negativi su compiti fattuali e aperti, aumentando al contempo il consumo di token. Propongono che il ragionamento sia uno stato di decodifica dinamica, segnalato dalle dinamiche entropiche nelle fasi iniziali: i compiti che beneficiano del CoT mostrano una riduzione consistente dell'entropia, mentre altri presentano pattern instabili o crescenti. Questo viene interpretato come una transizione di fase dall'esplorazione ad alta entropia al ragionamento strutturato a bassa entropia. L'articolo introduce EDRM (Entropy-Driven Reasoning Modulation) per applicare adattivamente il CoT basandosi sui segnali entropici.
Fatti principali
- Il ragionamento a catena di pensiero spesso fornisce guadagni marginali o negativi su compiti fattuali e aperti.
- Il ragionamento LLM è uno stato di decodifica dinamica che emerge durante la generazione.
- Le dinamiche entropiche nelle fasi iniziali segnalano in modo affidabile se il CoT è vantaggioso.
- I compiti che beneficiano del CoT mostrano una riduzione consistente dell'entropia.
- I compiti che non beneficiano del CoT presentano pattern entropici instabili o crescenti.
- Il comportamento viene interpretato come un cambiamento simile a una transizione di fase dall'esplorazione ad alta entropia al ragionamento strutturato a bassa entropia.
- L'articolo propone EDRM (Entropy-Driven Reasoning Modulation) per applicare adattivamente il CoT.
- Lo studio è pubblicato su arXiv con ID 2605.22873.
Entità
Istituzioni
- arXiv