Curriculum Avversario Vincolato da KL Migliora l'Apprendimento del Modello del Mondo

ai-technology · 2026-05-20

I ricercatori propongono PROWL, un metodo per migliorare l'apprendimento del modello del mondo elicitando attivamente i fallimenti. Una politica viene addestrata per trovare traiettorie ad alto errore per un modello del mondo basato su diffusione, che viene poi perfezionato su queste traiettorie. Questo ciclo avversario converte i fallimenti rari in segnali di addestramento stabili senza uscire dalla distribuzione. L'approccio affronta il problema del sottocampionamento passivo delle transizioni critiche.

Fatti principali

I moderni modelli del mondo video raggiungono realismo a breve termine ma falliscono su transizioni rare.
I dati passivi sottocampionano regimi ad alto impatto.
PROWL utilizza un curriculum avversario vincolato da KL.
Una politica espone traiettorie ad alto errore di un modello del mondo basato su diffusione.
Il modello del mondo viene perfezionato su traiettorie scoperte avversariamente.
Il metodo evita lo sfruttamento fuori distribuzione.
Converte i fallimenti rari in segnali di addestramento vicini alla distribuzione.
L'approccio mantiene la pressione sulle debolezze irrisolte.

Curriculum Avversario Vincolato da KL Migliora l'Apprendimento del Modello del Mondo

Fatti principali

Entità

Istituzioni

Fonti