I Transformers Possono Implementare l'Apprendimento per Rinforzo In-Context, Lo Studio Mostra

ai-technology · 2026-05-09

Un nuovo studio pubblicato su arXiv (2605.05755) ha scoperto che i transformers possono impegnarsi con successo nell'apprendimento per rinforzo in-context (ICRL), consentendo loro di sviluppare e implementare strategie di apprendimento da dati di traiettoria senza dover regolare i propri parametri. I ricercatori hanno dimostrato che un blocco transformer lineare di self-attention può applicare metodi di miglioramento delle politiche come semi-gradient SARSA e actor-critic, grazie a determinate configurazioni dei parametri. Hanno introdotto un approccio di addestramento che simula un processo di insegnamento, analizzato le dinamiche del flusso del gradiente e fornito la prima garanzia di convergenza nell'ICRL: con una ricchezza adeguata nella distribuzione degli MDP di addestramento, il flusso del gradiente convergerà localmente ed esponenzialmente verso una varietà di parametri ottimale in linea con l'aggiornamento RL desiderato. Esperimenti di addestramento su MDP tabulari generati casualmente hanno confermato questi risultati, con i modelli che rispecchiano accuratamente la struttura parametrica progettata.

Fatti principali

Articolo su arXiv (2605.05755) mostra che i transformers possono implementare l'apprendimento per rinforzo in-context
Blocco lineare di self-attention può implementare metodi di miglioramento delle politiche come semi-gradient SARSA e actor-critic
Prima garanzia di convergenza nella letteratura ICRL stabilita
Procedura di addestramento che imita l'insegnamento progettata
Dinamiche del flusso del gradiente analizzate
Convergenza verso una varietà di parametri ottimale in condizioni adeguate
Validazione empirica su MDP tabulari generati casualmente
I modelli appresi recuperano la struttura parametrica delle costruzioni esplicite

I Transformers Possono Implementare l'Apprendimento per Rinforzo In-Context, Lo Studio Mostra

Fatti principali

Entità

Istituzioni

Fonti