ARTFEED — Contemporary Art Intelligence

Il Troncamento Dinamico degli Outlier Riduce la Verbosità nei Modelli di Ragionamento

ai-technology · 2026-05-16

Il Troncamento Dinamico degli Outlier (DOT) è un approccio innovativo di addestramento progettato per affrontare il problema dell'eccessiva verbosità nei modelli di ragionamento estesi. I ricercatori hanno scoperto un fenomeno chiamato 'spostamento di lunghezza', in cui i modelli producono ragionamenti superflui per domande semplici durante l'apprendimento per rinforzo. Eliminando selettivamente i token ridondanti dalla coda estrema delle lunghezze delle risposte in gruppi di rollout completamente corretti, DOT mantiene il ragionamento a lungo orizzonte per problemi più complessi. Questa tecnica evita i conflitti di ottimizzazione che derivano da penalità di lunghezza dirette. Il documento di ricerca è disponibile su arXiv con ID 2601.03969.

Fatti principali

  • DOT è un intervento in fase di addestramento per ridurre la verbosità nei modelli di ragionamento.
  • Lo spostamento di lunghezza induce i modelli a 'pensare troppo' su input banali.
  • DOT colpisce solo la coda estrema delle lunghezze delle risposte in gruppi di rollout corretti.
  • Il metodo preserva le capacità di ragionamento a lungo orizzonte per problemi complessi.
  • Le penalità di lunghezza esplicite introducono conflitti di ottimizzazione.
  • Il documento è su arXiv con ID 2601.03969.
  • L'apprendimento per rinforzo con ricompense verificabili guida i guadagni di prestazione.
  • DOT sopprime selettivamente i token ridondanti.

Entità

Istituzioni

  • arXiv

Fonti