Il Perfezionamento Diagnostico Migliora la Progettazione delle Ricompense LLM per RL Sparso

ai-technology · 2026-06-01

Un recente preprint arXiv (2605.28918) reinterpreta il processo di modellazione delle ricompense generato da LLM per compiti di apprendimento per rinforzo sparsi e strutturati come un approccio di debug piuttosto che una generazione una tantum. I ricercatori hanno esaminato agenti addestrati con PPO su MiniGrid (core) e MuJoCo (boundary), scoprendo due principali modalità di fallimento: inondazione di ricompense e fraintendimento semantico/API, insieme a uno scenario meno comune di modellazione debole. Propongono un processo di perfezionamento iterativo guidato dalla diagnostica, in cui la diagnostica dell'addestramento e una tassonomia delle modalità di fallimento informano specifici aggiustamenti della funzione di ricompensa. Questo perfezionamento ha portato a miglioramenti significativi, con DoorKey-8x8 che è passato dal 2,3% al 97,6% e KeyCorridor dal 31,2% all'86,7%, nonostante una notevole variabilità da seed a seed. Esperimenti di controllo indicano che questi guadagni non sono dovuti a riaddestramento o tentativi, poiché il re-prompting basato solo su metriche ha portato a cali sostanziali, mentre un controllo con vocabolario statico ha recuperato gran parte del divario di prestazioni (87,6%; 70,7%), evidenziando il ruolo chiave del prompt di tassonomia e il vantaggio aggiuntivo delle etichette dinamiche.

Fatti principali

Preprint arXiv 2605.28918
Modellazione delle ricompense generata da LLM inquadrata come debug
Agenti addestrati con PPO su MiniGrid e MuJoCo
Modalità di fallimento dominanti: inondazione di ricompense, fraintendimento semantico/API
Identificato un raro caso di modellazione debole
Proposto perfezionamento iterativo guidato dalla diagnostica
DoorKey-8x8 migliorato dal 2,3% al 97,6%
KeyCorridor migliorato dal 31,2% all'86,7%
Elevata varianza dei risultati da seed a seed
Re-prompting basato solo su metriche produce grandi cali
Controllo con vocabolario statico recupera l'87,6% e il 70,7%
Il prompt di tassonomia è un meccanismo principale
Le etichette dinamiche forniscono un ulteriore vantaggio

Il Perfezionamento Diagnostico Migliora la Progettazione delle Ricompense LLM per RL Sparso

Fatti principali

Entità

Istituzioni

Fonti