Il Troncamento Dinamico degli Outlier Riduce la Verbosità nei Modelli di Ragionamento
Il Troncamento Dinamico degli Outlier (DOT) è un approccio innovativo di addestramento progettato per affrontare il problema dell'eccessiva verbosità nei modelli di ragionamento estesi. I ricercatori hanno scoperto un fenomeno chiamato 'spostamento di lunghezza', in cui i modelli producono ragionamenti superflui per domande semplici durante l'apprendimento per rinforzo. Eliminando selettivamente i token ridondanti dalla coda estrema delle lunghezze delle risposte in gruppi di rollout completamente corretti, DOT mantiene il ragionamento a lungo orizzonte per problemi più complessi. Questa tecnica evita i conflitti di ottimizzazione che derivano da penalità di lunghezza dirette. Il documento di ricerca è disponibile su arXiv con ID 2601.03969.
Fatti principali
- DOT è un intervento in fase di addestramento per ridurre la verbosità nei modelli di ragionamento.
- Lo spostamento di lunghezza induce i modelli a 'pensare troppo' su input banali.
- DOT colpisce solo la coda estrema delle lunghezze delle risposte in gruppi di rollout corretti.
- Il metodo preserva le capacità di ragionamento a lungo orizzonte per problemi complessi.
- Le penalità di lunghezza esplicite introducono conflitti di ottimizzazione.
- Il documento è su arXiv con ID 2601.03969.
- L'apprendimento per rinforzo con ricompense verificabili guida i guadagni di prestazione.
- DOT sopprime selettivamente i token ridondanti.
Entità
Istituzioni
- arXiv