Curriculum Avversario Vincolato da KL Migliora l'Apprendimento del Modello del Mondo
I ricercatori propongono PROWL, un metodo per migliorare l'apprendimento del modello del mondo elicitando attivamente i fallimenti. Una politica viene addestrata per trovare traiettorie ad alto errore per un modello del mondo basato su diffusione, che viene poi perfezionato su queste traiettorie. Questo ciclo avversario converte i fallimenti rari in segnali di addestramento stabili senza uscire dalla distribuzione. L'approccio affronta il problema del sottocampionamento passivo delle transizioni critiche.
Fatti principali
- I moderni modelli del mondo video raggiungono realismo a breve termine ma falliscono su transizioni rare.
- I dati passivi sottocampionano regimi ad alto impatto.
- PROWL utilizza un curriculum avversario vincolato da KL.
- Una politica espone traiettorie ad alto errore di un modello del mondo basato su diffusione.
- Il modello del mondo viene perfezionato su traiettorie scoperte avversariamente.
- Il metodo evita lo sfruttamento fuori distribuzione.
- Converte i fallimenti rari in segnali di addestramento vicini alla distribuzione.
- L'approccio mantiene la pressione sulle debolezze irrisolte.
Entità
Istituzioni
- arXiv