Il Troncamento Dinamico degli Outlier Riduce la Verbosità nei Modelli di Ragionamento

ai-technology · 2026-05-16

Il Troncamento Dinamico degli Outlier (DOT) è un approccio innovativo di addestramento progettato per affrontare il problema dell'eccessiva verbosità nei modelli di ragionamento estesi. I ricercatori hanno scoperto un fenomeno chiamato 'spostamento di lunghezza', in cui i modelli producono ragionamenti superflui per domande semplici durante l'apprendimento per rinforzo. Eliminando selettivamente i token ridondanti dalla coda estrema delle lunghezze delle risposte in gruppi di rollout completamente corretti, DOT mantiene il ragionamento a lungo orizzonte per problemi più complessi. Questa tecnica evita i conflitti di ottimizzazione che derivano da penalità di lunghezza dirette. Il documento di ricerca è disponibile su arXiv con ID 2601.03969.

Fatti principali

DOT è un intervento in fase di addestramento per ridurre la verbosità nei modelli di ragionamento.
Lo spostamento di lunghezza induce i modelli a 'pensare troppo' su input banali.
DOT colpisce solo la coda estrema delle lunghezze delle risposte in gruppi di rollout corretti.
Il metodo preserva le capacità di ragionamento a lungo orizzonte per problemi complessi.
Le penalità di lunghezza esplicite introducono conflitti di ottimizzazione.
Il documento è su arXiv con ID 2601.03969.
L'apprendimento per rinforzo con ricompense verificabili guida i guadagni di prestazione.
DOT sopprime selettivamente i token ridondanti.

Il Troncamento Dinamico degli Outlier Riduce la Verbosità nei Modelli di Ragionamento

Fatti principali

Entità

Istituzioni

Fonti