Ricompense Miste Bootstrap Migliorano il Post-Addestramento RL per i Transformer

ai-technology · 2026-05-07

Un nuovo articolo su arXiv (2512.04277v3) propone di iniettare l'ordine canonico delle azioni come ricompensa mista durante il post-addestramento con apprendimento per rinforzo (RL) per migliorare le prestazioni dei Transformer, anche quando vengono affinati su sequenze di soluzioni randomizzate. Il metodo utilizza l'ottimizzazione delle politiche relative di gruppo (GRPO) con due ricompense: una ricompensa sparsa per il compito (1 solo quando completamente risolto) e una ricompensa per l'ordinamento che allinea l'ordine di emissione con un ordine risolutore canonico. Miscele fisse con scaling bootstrap equalizzano le grandezze delle componenti all'inizializzazione. Sui puzzle Zebra, le ricompense miste superano l'ottimizzazione basata solo sul compito, suggerendo che segnali di ordinamento grossolani possono guidare efficacemente il post-addestramento RL.

Fatti principali

arXiv:2512.04277v3
Ricompense miste bootstrap per il post-addestramento RL
Inietta l'ordine canonico delle azioni come segnale di ricompensa
Utilizza GRPO con ricompensa sparsa per il compito e ricompensa per l'ordinamento
Miscele fisse con scaling bootstrap
Testato su puzzle Zebra
Le ricompense miste superano l'ottimizzazione basata solo sul compito
Segnali di ordinamento grossolani guidano il post-addestramento RL

Ricompense Miste Bootstrap Migliorano il Post-Addestramento RL per i Transformer

Fatti principali

Entità

Istituzioni

Fonti