Azione Latente Residua Consente Modelli del Mondo Efficienti Basati su Caratteristiche Visive

ai-technology · 2026-05-11

Un nuovo articolo su arXiv introduce l'Azione Latente Residua (RLA), una rappresentazione di azione latente appresa dai residui di DINO, e propone RLA-WM, un modello del mondo che predice RLA tramite flow matching. RLA-WM supera i modelli del mondo basati su caratteristiche esistenti evitando previsioni sfocate o collassate in interazioni complesse, affrontando la sfida della modellazione generativa in spazi di caratteristiche ad alta dimensionalità. Il lavoro dimostra che RLA è predittiva, generalizzabile e codifica la progressione temporale, offrendo un'alternativa più efficiente e meno soggetta ad allucinazioni rispetto ai modelli del mondo basati sulla generazione di immagini.

Fatti principali

L'Azione Latente Residua (RLA) è un nuovo tipo di rappresentazione di azione latente.
RLA viene appresa dai residui di DINO.
RLA-WM predice i valori RLA tramite flow matching.
RLA-WM supera sia i modelli del mondo basati su caratteristiche all'avanguardia.
Gli approcci basati su caratteristiche esistenti si basano sulla regressione diretta, portando a previsioni sfocate o collassate.
La modellazione generativa in spazi di caratteristiche ad alta dimensionalità rimane una sfida.
RLA è predittiva, generalizzabile e codifica la progressione temporale.
L'articolo è pubblicato su arXiv con ID 2605.07079.

Azione Latente Residua Consente Modelli del Mondo Efficienti Basati su Caratteristiche Visive

Fatti principali

Entità

Istituzioni

Fonti