Il Perfezionamento Diagnostico Migliora la Progettazione delle Ricompense LLM per RL Sparso
Un recente preprint arXiv (2605.28918) reinterpreta il processo di modellazione delle ricompense generato da LLM per compiti di apprendimento per rinforzo sparsi e strutturati come un approccio di debug piuttosto che una generazione una tantum. I ricercatori hanno esaminato agenti addestrati con PPO su MiniGrid (core) e MuJoCo (boundary), scoprendo due principali modalità di fallimento: inondazione di ricompense e fraintendimento semantico/API, insieme a uno scenario meno comune di modellazione debole. Propongono un processo di perfezionamento iterativo guidato dalla diagnostica, in cui la diagnostica dell'addestramento e una tassonomia delle modalità di fallimento informano specifici aggiustamenti della funzione di ricompensa. Questo perfezionamento ha portato a miglioramenti significativi, con DoorKey-8x8 che è passato dal 2,3% al 97,6% e KeyCorridor dal 31,2% all'86,7%, nonostante una notevole variabilità da seed a seed. Esperimenti di controllo indicano che questi guadagni non sono dovuti a riaddestramento o tentativi, poiché il re-prompting basato solo su metriche ha portato a cali sostanziali, mentre un controllo con vocabolario statico ha recuperato gran parte del divario di prestazioni (87,6%; 70,7%), evidenziando il ruolo chiave del prompt di tassonomia e il vantaggio aggiuntivo delle etichette dinamiche.
Fatti principali
- Preprint arXiv 2605.28918
- Modellazione delle ricompense generata da LLM inquadrata come debug
- Agenti addestrati con PPO su MiniGrid e MuJoCo
- Modalità di fallimento dominanti: inondazione di ricompense, fraintendimento semantico/API
- Identificato un raro caso di modellazione debole
- Proposto perfezionamento iterativo guidato dalla diagnostica
- DoorKey-8x8 migliorato dal 2,3% al 97,6%
- KeyCorridor migliorato dal 31,2% all'86,7%
- Elevata varianza dei risultati da seed a seed
- Re-prompting basato solo su metriche produce grandi cali
- Controllo con vocabolario statico recupera l'87,6% e il 70,7%
- Il prompt di tassonomia è un meccanismo principale
- Le etichette dinamiche forniscono un ulteriore vantaggio
Entità
Istituzioni
- arXiv