L'Apprendimento per Rinforzo Potenzia il Processo Decisionale dei VLM nei Videogiochi

ai-technology · 2026-05-04

Un recente preprint su arXiv presenta Odysseus, una tecnica progettata per migliorare i modelli visione-linguaggio (VLM) nella gestione di oltre 100 turni decisionali in videogiochi attraverso l'apprendimento per rinforzo (RL). Lo studio si concentra su Super Mario Land, un ambiente visivamente ricco che richiede percezione, ragionamento e azione sincronizzati per periodi prolungati. I ricercatori analizzano meticolosamente gli elementi algoritmici essenziali e introducono una versione modificata di PPO con un critico a livello di turno semplificato, che aumenta la stabilità dell'addestramento e l'efficienza del campione rispetto ad approcci senza critico come GRPO e Reinforce++. I loro risultati indicano che i VLM preaddestrati possiedono solide capacità iniziali e che l'addestramento RL migliora significativamente le prestazioni in scenari a lungo orizzonte. Questa ricerca affronta le carenze dei metodi attuali che si basano su un esteso addestramento supervisionato con traiettorie umane o limitano l'RL a contesti a breve orizzonte (circa 20-30 turni). I risultati implicano che l'addestramento basato su RL può adattare con successo i VLM per il processo decisionale interattivo in ambienti complessi e multi-step.

Fatti principali

Odysseus scala i VLM a oltre 100 turni decisionali nei giochi tramite RL.
La ricerca si concentra su Super Mario Land come ambiente di test.
Propone un PPO adattato con un critico leggero a livello di turno.
Migliora stabilità ed efficienza rispetto a GRPO e Reinforce++.
I VLM preaddestrati forniscono solide capacità iniziali.
I metodi esistenti si basano su SFT o RL a breve orizzonte (20-30 turni).
L'addestramento RL migliora le prestazioni a lungo orizzonte.
Studio pubblicato su arXiv (2605.00347).

L'Apprendimento per Rinforzo Potenzia il Processo Decisionale dei VLM nei Videogiochi

Fatti principali

Entità

Istituzioni

Fonti