Il ragionamento LLM come stato di decodifica dinamica attraverso transizioni di fase entropiche

ai-technology · 2026-05-25

Un nuovo articolo su arXiv (2605.22873) indaga quando il ragionamento a catena di pensiero (CoT) è vantaggioso per i modelli linguistici di grandi dimensioni. Gli autori scoprono che il CoT spesso produce guadagni marginali o negativi su compiti fattuali e aperti, aumentando al contempo il consumo di token. Propongono che il ragionamento sia uno stato di decodifica dinamica, segnalato dalle dinamiche entropiche nelle fasi iniziali: i compiti che beneficiano del CoT mostrano una riduzione consistente dell'entropia, mentre altri presentano pattern instabili o crescenti. Questo viene interpretato come una transizione di fase dall'esplorazione ad alta entropia al ragionamento strutturato a bassa entropia. L'articolo introduce EDRM (Entropy-Driven Reasoning Modulation) per applicare adattivamente il CoT basandosi sui segnali entropici.

Fatti principali

Il ragionamento a catena di pensiero spesso fornisce guadagni marginali o negativi su compiti fattuali e aperti.
Il ragionamento LLM è uno stato di decodifica dinamica che emerge durante la generazione.
Le dinamiche entropiche nelle fasi iniziali segnalano in modo affidabile se il CoT è vantaggioso.
I compiti che beneficiano del CoT mostrano una riduzione consistente dell'entropia.
I compiti che non beneficiano del CoT presentano pattern entropici instabili o crescenti.
Il comportamento viene interpretato come un cambiamento simile a una transizione di fase dall'esplorazione ad alta entropia al ragionamento strutturato a bassa entropia.
L'articolo propone EDRM (Entropy-Driven Reasoning Modulation) per applicare adattivamente il CoT.
Lo studio è pubblicato su arXiv con ID 2605.22873.

Il ragionamento LLM come stato di decodifica dinamica attraverso transizioni di fase entropiche

Fatti principali

Entità

Istituzioni

Fonti