Nuovo Framework Senza Addestramento Utilizza Sequential Monte Carlo per il Decodaggio Guidato da Ricompense nei LLM

ai-technology · 2026-04-22

È stato presentato un nuovo framework probabilistico mirato al decodaggio guidato da ricompense nei grandi modelli linguistici, affrontando le carenze delle tecniche tradizionali che privilegiano la verosimiglianza a livello di token rispetto alla qualità complessiva delle sequenze. Questo metodo innovativo stabilisce una distribuzione target potenziata dalle ricompense per intere sequenze, fondendo le probabilità di transizione del modello con ricompense che dipendono dai prefissi. In modo significativo, opera senza addestramento, modificando la distribuzione inferenziale esclusivamente attraverso potenziali di ricompensa mentre mantiene intatti i pesi del modello, con miglioramenti derivanti dal campionamento al momento dell'inferenza. Per estrarre campioni da questa distribuzione, sono stati creati algoritmi Sequential Monte Carlo, caratterizzati da una variante computazionalmente efficiente che considera solo i prefissi e da una variante lookahead che allinea gli obiettivi intermedi con i marginali precisi della distribuzione della sequenza completa. Questo framework incorpora anche aggiornamenti resample-move insieme a un ringiovanimento Metropolis-Hastings. Questa ricerca, identificata come 2604.16453v1, è stata pubblicata su arXiv e rientra negli annunci incrociati. Questo metodo segna un notevole balzo in avanti nelle strategie di decodaggio offrendo un modo sistematico per integrare metriche di qualità a livello di sequenza senza necessitare di riaddestramento del modello o aggiustamenti dei pesi.

Fatti principali

È stato introdotto un nuovo framework probabilistico per il decodaggio guidato da ricompense nei grandi modelli linguistici
Il metodo affronta i limiti dei metodi di decodaggio standard che ottimizzano la verosimiglianza a livello di token piuttosto che la qualità a livello di sequenza
L'approccio definisce una distribuzione target potenziata dalle ricompense sulle sequenze complete
Il metodo è senza addestramento e lascia invariati i pesi del modello
Tutti i guadagni derivano esclusivamente dal campionamento al momento dell'inferenza attraverso una distribuzione inferenziale modificata
Sono stati sviluppati algoritmi Sequential Monte Carlo per campionare da questa distribuzione
Il framework include una variante computazionalmente efficiente che considera solo i prefissi e una variante lookahead
La ricerca è stata annunciata su arXiv con identificatore 2604.16453v1 come annuncio incrociato

Nuovo Framework Senza Addestramento Utilizza Sequential Monte Carlo per il Decodaggio Guidato da Ricompense nei LLM

Fatti principali

Entità

Istituzioni

Fonti