Routing di Strategie Guidato dal Disaccordo per lo Scaling al Test-Time
Un recente articolo su arXiv (2604.26644) presenta un framework che non richiede addestramento per lo scaling al test-time nei modelli di ragionamento di grandi dimensioni (LRM). I ricercatori hanno trovato un forte legame tra il disaccordo nell'output e la difficoltà delle istanze, nonché l'accuratezza delle previsioni, che consente la selezione dinamica delle strategie. Invece di aumentare il calcolo per un singolo approccio, questo framework indirizza le istanze a varie strategie di scaling in base al livello di disaccordo: utilizza una risoluzione leggera per istanze consistenti, voto di maggioranza per disaccordo moderato e riscrittura per disaccordo elevato. Questo metodo mira a migliorare le prestazioni su compiti di ragionamento matematico difficili, evitando i rendimenti decrescenti associati a tecniche come il campionamento ripetuto, l'autocorrezione e la ricerca ad albero.
Fatti principali
- ID articolo arXiv: 2604.26644
- Titolo: When to Vote, When to Rewrite: Disagreement-Guided Strategy Routing for Test-Time Scaling
- Si concentra su modelli di ragionamento di grandi dimensioni (LRM) per il ragionamento matematico
- Il disaccordo nell'output viene utilizzato come segnale per la selezione della strategia a livello di istanza
- Il framework non richiede addestramento
- Strategie: risoluzione leggera, voto di maggioranza, riscrittura
- Mira a migliorare l'efficienza dello scaling al test-time
- Affronta i rendimenti decrescenti dei metodi esistenti su problemi difficili
Entità
Istituzioni
- arXiv