Ricompense Miste Bootstrap Migliorano il Post-Addestramento RL per i Transformer
Un nuovo articolo su arXiv (2512.04277v3) propone di iniettare l'ordine canonico delle azioni come ricompensa mista durante il post-addestramento con apprendimento per rinforzo (RL) per migliorare le prestazioni dei Transformer, anche quando vengono affinati su sequenze di soluzioni randomizzate. Il metodo utilizza l'ottimizzazione delle politiche relative di gruppo (GRPO) con due ricompense: una ricompensa sparsa per il compito (1 solo quando completamente risolto) e una ricompensa per l'ordinamento che allinea l'ordine di emissione con un ordine risolutore canonico. Miscele fisse con scaling bootstrap equalizzano le grandezze delle componenti all'inizializzazione. Sui puzzle Zebra, le ricompense miste superano l'ottimizzazione basata solo sul compito, suggerendo che segnali di ordinamento grossolani possono guidare efficacemente il post-addestramento RL.
Fatti principali
- arXiv:2512.04277v3
- Ricompense miste bootstrap per il post-addestramento RL
- Inietta l'ordine canonico delle azioni come segnale di ricompensa
- Utilizza GRPO con ricompensa sparsa per il compito e ricompensa per l'ordinamento
- Miscele fisse con scaling bootstrap
- Testato su puzzle Zebra
- Le ricompense miste superano l'ottimizzazione basata solo sul compito
- Segnali di ordinamento grossolani guidano il post-addestramento RL
Entità
Istituzioni
- arXiv