Il Backtracking Stocastico Migliora il Ridimensionamento del Tempo di Test per i LLM
Un nuovo articolo su arXiv (2605.25143) introduce il backtracking stocastico per migliorare il ridimensionamento del tempo di test nel ragionamento dei modelli linguistici. Il metodo mantiene un pool persistente di prefissi storici, consentendo al modello di rivisitare stati generati in precedenza anziché espandere solo la frontiera corrente. Questo affronta l'impegno prematuro e il collasso della diversità nella ricerca guidata da PRM. Vengono proposti due meccanismi: Subpool Selection applica la selezione Top-N all'interno di sottopool casuali per rafforzare la ricerca greedy. L'approccio mira a massimizzare l'accuratezza minimizzando il numero totale di token generati.
Fatti principali
- L'articolo arXiv:2605.25143 introduce il backtracking stocastico per il ridimensionamento del tempo di test.
- Il metodo utilizza un pool persistente di prefissi storici.
- Consente di rivisitare stati generati in precedenza.
- Affronta l'impegno prematuro e il collasso della diversità.
- Propone il meccanismo Subpool Selection.
- Subpool Selection applica la selezione Top-N all'interno di sottopool casuali.
- Mira a massimizzare l'accuratezza minimizzando i token.
- Si concentra sul miglioramento della ricerca guidata da PRM.
Entità
Istituzioni
- arXiv