I Transformers Possono Implementare l'Apprendimento per Rinforzo In-Context, Lo Studio Mostra
Un nuovo studio pubblicato su arXiv (2605.05755) ha scoperto che i transformers possono impegnarsi con successo nell'apprendimento per rinforzo in-context (ICRL), consentendo loro di sviluppare e implementare strategie di apprendimento da dati di traiettoria senza dover regolare i propri parametri. I ricercatori hanno dimostrato che un blocco transformer lineare di self-attention può applicare metodi di miglioramento delle politiche come semi-gradient SARSA e actor-critic, grazie a determinate configurazioni dei parametri. Hanno introdotto un approccio di addestramento che simula un processo di insegnamento, analizzato le dinamiche del flusso del gradiente e fornito la prima garanzia di convergenza nell'ICRL: con una ricchezza adeguata nella distribuzione degli MDP di addestramento, il flusso del gradiente convergerà localmente ed esponenzialmente verso una varietà di parametri ottimale in linea con l'aggiornamento RL desiderato. Esperimenti di addestramento su MDP tabulari generati casualmente hanno confermato questi risultati, con i modelli che rispecchiano accuratamente la struttura parametrica progettata.
Fatti principali
- Articolo su arXiv (2605.05755) mostra che i transformers possono implementare l'apprendimento per rinforzo in-context
- Blocco lineare di self-attention può implementare metodi di miglioramento delle politiche come semi-gradient SARSA e actor-critic
- Prima garanzia di convergenza nella letteratura ICRL stabilita
- Procedura di addestramento che imita l'insegnamento progettata
- Dinamiche del flusso del gradiente analizzate
- Convergenza verso una varietà di parametri ottimale in condizioni adeguate
- Validazione empirica su MDP tabulari generati casualmente
- I modelli appresi recuperano la struttura parametrica delle costruzioni esplicite
Entità
Istituzioni
- arXiv