Routing di Strategie Guidato dal Disaccordo per lo Scaling al Test-Time

other · 2026-04-30

Un recente articolo su arXiv (2604.26644) presenta un framework che non richiede addestramento per lo scaling al test-time nei modelli di ragionamento di grandi dimensioni (LRM). I ricercatori hanno trovato un forte legame tra il disaccordo nell'output e la difficoltà delle istanze, nonché l'accuratezza delle previsioni, che consente la selezione dinamica delle strategie. Invece di aumentare il calcolo per un singolo approccio, questo framework indirizza le istanze a varie strategie di scaling in base al livello di disaccordo: utilizza una risoluzione leggera per istanze consistenti, voto di maggioranza per disaccordo moderato e riscrittura per disaccordo elevato. Questo metodo mira a migliorare le prestazioni su compiti di ragionamento matematico difficili, evitando i rendimenti decrescenti associati a tecniche come il campionamento ripetuto, l'autocorrezione e la ricerca ad albero.

Fatti principali

ID articolo arXiv: 2604.26644
Titolo: When to Vote, When to Rewrite: Disagreement-Guided Strategy Routing for Test-Time Scaling
Si concentra su modelli di ragionamento di grandi dimensioni (LRM) per il ragionamento matematico
Il disaccordo nell'output viene utilizzato come segnale per la selezione della strategia a livello di istanza
Il framework non richiede addestramento
Strategie: risoluzione leggera, voto di maggioranza, riscrittura
Mira a migliorare l'efficienza dello scaling al test-time
Affronta i rendimenti decrescenti dei metodi esistenti su problemi difficili

Routing di Strategie Guidato dal Disaccordo per lo Scaling al Test-Time

Fatti principali

Entità

Istituzioni

Fonti