La compressione post-addestramento RL riduce l'eccessiva riflessione degli LLM
Uno studio recente pubblicato su arXiv (2605.07316) indica che l'apprendimento per rinforzo che utilizza ricompense verificabili migliora le capacità di ragionamento dei grandi modelli linguistici (LLM), ma porta spesso a una deliberazione eccessiva, con conseguenti processi di ragionamento inutilmente lunghi. Le soluzioni attuali, come le penalità di lunghezza o i metodi di uscita anticipata, possono compromettere l'accuratezza o portare a un ragionamento insufficiente. Attraverso un esame delle dinamiche di addestramento, i ricercatori hanno scoperto che la correlazione tra lunghezza e accuratezza mostra inizialmente un andamento negativo (eccessiva riflessione) prima di passare a uno positivo (riflessione insufficiente) durante la compressione. Per affrontare questo problema, suggeriscono di utilizzare una regolarizzazione implicita della compressione per facilitare un ragionamento conciso senza questi svantaggi.
Fatti principali
- Il paper arXiv 2605.07316 esamina l'eccessiva riflessione nel ragionamento degli LLM
- L'apprendimento per rinforzo con ricompense verificabili può causare eccessiva riflessione
- Le penalità di lunghezza possono degradare l'accuratezza
- Le strategie di uscita anticipata presuppongono un troncamento sicuro delle tracce di ragionamento
- La correlazione lunghezza-accuratezza è inizialmente negativa durante la compressione
- La correlazione negativa indica un regime di eccessiva riflessione
- La correlazione positiva indica un regime di riflessione insufficiente
- La regolarizzazione implicita della compressione è proposta come soluzione
Entità
Istituzioni
- arXiv