Azione Latente Residua Consente Modelli del Mondo Efficienti Basati su Caratteristiche Visive
Un nuovo articolo su arXiv introduce l'Azione Latente Residua (RLA), una rappresentazione di azione latente appresa dai residui di DINO, e propone RLA-WM, un modello del mondo che predice RLA tramite flow matching. RLA-WM supera i modelli del mondo basati su caratteristiche esistenti evitando previsioni sfocate o collassate in interazioni complesse, affrontando la sfida della modellazione generativa in spazi di caratteristiche ad alta dimensionalità. Il lavoro dimostra che RLA è predittiva, generalizzabile e codifica la progressione temporale, offrendo un'alternativa più efficiente e meno soggetta ad allucinazioni rispetto ai modelli del mondo basati sulla generazione di immagini.
Fatti principali
- L'Azione Latente Residua (RLA) è un nuovo tipo di rappresentazione di azione latente.
- RLA viene appresa dai residui di DINO.
- RLA-WM predice i valori RLA tramite flow matching.
- RLA-WM supera sia i modelli del mondo basati su caratteristiche all'avanguardia.
- Gli approcci basati su caratteristiche esistenti si basano sulla regressione diretta, portando a previsioni sfocate o collassate.
- La modellazione generativa in spazi di caratteristiche ad alta dimensionalità rimane una sfida.
- RLA è predittiva, generalizzabile e codifica la progressione temporale.
- L'articolo è pubblicato su arXiv con ID 2605.07079.
Entità
Istituzioni
- arXiv