ARTFEED — Contemporary Art Intelligence

La compressione post-addestramento RL riduce l'eccessiva riflessione degli LLM

ai-technology · 2026-05-11

Uno studio recente pubblicato su arXiv (2605.07316) indica che l'apprendimento per rinforzo che utilizza ricompense verificabili migliora le capacità di ragionamento dei grandi modelli linguistici (LLM), ma porta spesso a una deliberazione eccessiva, con conseguenti processi di ragionamento inutilmente lunghi. Le soluzioni attuali, come le penalità di lunghezza o i metodi di uscita anticipata, possono compromettere l'accuratezza o portare a un ragionamento insufficiente. Attraverso un esame delle dinamiche di addestramento, i ricercatori hanno scoperto che la correlazione tra lunghezza e accuratezza mostra inizialmente un andamento negativo (eccessiva riflessione) prima di passare a uno positivo (riflessione insufficiente) durante la compressione. Per affrontare questo problema, suggeriscono di utilizzare una regolarizzazione implicita della compressione per facilitare un ragionamento conciso senza questi svantaggi.

Fatti principali

  • Il paper arXiv 2605.07316 esamina l'eccessiva riflessione nel ragionamento degli LLM
  • L'apprendimento per rinforzo con ricompense verificabili può causare eccessiva riflessione
  • Le penalità di lunghezza possono degradare l'accuratezza
  • Le strategie di uscita anticipata presuppongono un troncamento sicuro delle tracce di ragionamento
  • La correlazione lunghezza-accuratezza è inizialmente negativa durante la compressione
  • La correlazione negativa indica un regime di eccessiva riflessione
  • La correlazione positiva indica un regime di riflessione insufficiente
  • La regolarizzazione implicita della compressione è proposta come soluzione

Entità

Istituzioni

  • arXiv

Fonti