ARTFEED — Contemporary Art Intelligence

Il Perfezionamento Diagnostico Migliora la Progettazione delle Ricompense LLM per RL Sparso

ai-technology · 2026-06-01

Un recente preprint arXiv (2605.28918) reinterpreta il processo di modellazione delle ricompense generato da LLM per compiti di apprendimento per rinforzo sparsi e strutturati come un approccio di debug piuttosto che una generazione una tantum. I ricercatori hanno esaminato agenti addestrati con PPO su MiniGrid (core) e MuJoCo (boundary), scoprendo due principali modalità di fallimento: inondazione di ricompense e fraintendimento semantico/API, insieme a uno scenario meno comune di modellazione debole. Propongono un processo di perfezionamento iterativo guidato dalla diagnostica, in cui la diagnostica dell'addestramento e una tassonomia delle modalità di fallimento informano specifici aggiustamenti della funzione di ricompensa. Questo perfezionamento ha portato a miglioramenti significativi, con DoorKey-8x8 che è passato dal 2,3% al 97,6% e KeyCorridor dal 31,2% all'86,7%, nonostante una notevole variabilità da seed a seed. Esperimenti di controllo indicano che questi guadagni non sono dovuti a riaddestramento o tentativi, poiché il re-prompting basato solo su metriche ha portato a cali sostanziali, mentre un controllo con vocabolario statico ha recuperato gran parte del divario di prestazioni (87,6%; 70,7%), evidenziando il ruolo chiave del prompt di tassonomia e il vantaggio aggiuntivo delle etichette dinamiche.

Fatti principali

  • Preprint arXiv 2605.28918
  • Modellazione delle ricompense generata da LLM inquadrata come debug
  • Agenti addestrati con PPO su MiniGrid e MuJoCo
  • Modalità di fallimento dominanti: inondazione di ricompense, fraintendimento semantico/API
  • Identificato un raro caso di modellazione debole
  • Proposto perfezionamento iterativo guidato dalla diagnostica
  • DoorKey-8x8 migliorato dal 2,3% al 97,6%
  • KeyCorridor migliorato dal 31,2% all'86,7%
  • Elevata varianza dei risultati da seed a seed
  • Re-prompting basato solo su metriche produce grandi cali
  • Controllo con vocabolario statico recupera l'87,6% e il 70,7%
  • Il prompt di tassonomia è un meccanismo principale
  • Le etichette dinamiche forniscono un ulteriore vantaggio

Entità

Istituzioni

  • arXiv

Fonti