ARTFEED — Contemporary Art Intelligence

Curriculum Avversario Vincolato da KL Migliora l'Apprendimento del Modello del Mondo

ai-technology · 2026-05-20

I ricercatori propongono PROWL, un metodo per migliorare l'apprendimento del modello del mondo elicitando attivamente i fallimenti. Una politica viene addestrata per trovare traiettorie ad alto errore per un modello del mondo basato su diffusione, che viene poi perfezionato su queste traiettorie. Questo ciclo avversario converte i fallimenti rari in segnali di addestramento stabili senza uscire dalla distribuzione. L'approccio affronta il problema del sottocampionamento passivo delle transizioni critiche.

Fatti principali

  • I moderni modelli del mondo video raggiungono realismo a breve termine ma falliscono su transizioni rare.
  • I dati passivi sottocampionano regimi ad alto impatto.
  • PROWL utilizza un curriculum avversario vincolato da KL.
  • Una politica espone traiettorie ad alto errore di un modello del mondo basato su diffusione.
  • Il modello del mondo viene perfezionato su traiettorie scoperte avversariamente.
  • Il metodo evita lo sfruttamento fuori distribuzione.
  • Converte i fallimenti rari in segnali di addestramento vicini alla distribuzione.
  • L'approccio mantiene la pressione sulle debolezze irrisolte.

Entità

Istituzioni

  • arXiv

Fonti