La compressione post-addestramento RL riduce l'eccessiva riflessione degli LLM

ai-technology · 2026-05-11

Uno studio recente pubblicato su arXiv (2605.07316) indica che l'apprendimento per rinforzo che utilizza ricompense verificabili migliora le capacità di ragionamento dei grandi modelli linguistici (LLM), ma porta spesso a una deliberazione eccessiva, con conseguenti processi di ragionamento inutilmente lunghi. Le soluzioni attuali, come le penalità di lunghezza o i metodi di uscita anticipata, possono compromettere l'accuratezza o portare a un ragionamento insufficiente. Attraverso un esame delle dinamiche di addestramento, i ricercatori hanno scoperto che la correlazione tra lunghezza e accuratezza mostra inizialmente un andamento negativo (eccessiva riflessione) prima di passare a uno positivo (riflessione insufficiente) durante la compressione. Per affrontare questo problema, suggeriscono di utilizzare una regolarizzazione implicita della compressione per facilitare un ragionamento conciso senza questi svantaggi.

Fatti principali

Il paper arXiv 2605.07316 esamina l'eccessiva riflessione nel ragionamento degli LLM
L'apprendimento per rinforzo con ricompense verificabili può causare eccessiva riflessione
Le penalità di lunghezza possono degradare l'accuratezza
Le strategie di uscita anticipata presuppongono un troncamento sicuro delle tracce di ragionamento
La correlazione lunghezza-accuratezza è inizialmente negativa durante la compressione
La correlazione negativa indica un regime di eccessiva riflessione
La correlazione positiva indica un regime di riflessione insufficiente
La regolarizzazione implicita della compressione è proposta come soluzione

La compressione post-addestramento RL riduce l'eccessiva riflessione degli LLM

Fatti principali

Entità

Istituzioni

Fonti