ReProbe: Scaling efficiente al test per ragionamento multi-step tramite sonda dello stato interno
I ricercatori hanno introdotto ReProbe, una tecnica efficiente progettata per verificare i passaggi di ragionamento nei modelli linguistici di grandi dimensioni (LLM) esaminando i loro stati interni. A differenza dei Process Reward Models (PRM), che richiedono molte risorse e necessitano di annotazioni estese, ReProbe impiega una sonda basata su transformer con meno di 10 milioni di parametri. Questa sonda valuta l'affidabilità di ogni passaggio di ragionamento durante il processo di generazione, utilizzando gli stati interni di un LLM statico. Le annotazioni possono essere generate da un LLM più esteso, come DeepSeek-R1, o tramite auto-supervisione da parte del modello originale. Questo metodo facilita un efficiente scaling al test (TTS) campionando varie opzioni di ragionamento e scegliendo i passaggi ottimali per la continuazione. L'approccio è stato testato in diversi domini, mostrando capacità di ragionamento migliorate senza gli onerosi requisiti dei PRM. Il paper è disponibile su arXiv con ID 2511.06209.
Fatti principali
- ReProbe utilizza gli stati interni degli LLM per la verifica del ragionamento a livello di passaggio.
- La sonda è un modello basato su transformer con meno di 10 milioni di parametri.
- Le annotazioni possono provenire da un LLM più grande come DeepSeek-R1 o essere auto-supervisionate.
- È un'alternativa leggera ai Process Reward Models (PRM).
- Lo scaling al test migliora le prestazioni campionando e verificando i passaggi di ragionamento.
- Il metodo è valutato in più domini.
- Il paper è disponibile su arXiv: 2511.06209.
- L'approccio utilizza un LLM congelato per il probing.
Entità
Istituzioni
- arXiv