IPR-1: Ragionatore Fisico Interattivo Collega VLM e Modelli del Mondo per il Ragionamento Fisico
Un nuovo framework chiamato IPR (Interactive Physical Reasoner) è stato sviluppato dai ricercatori per migliorare il ragionamento sulla fisica e la causalità in contesti interattivi. Questo framework integra rollout di modelli del mondo con modelli linguistico-visivi (VLM). Inoltre, il team ha introdotto PhysCode, un codice d'azione orientato alla fisica che collega l'intento semantico con la dinamica. Per valutarne l'efficacia, hanno stabilito il benchmark Game-to-Unseen (G2U), con oltre 1.000 giochi diversi che presentano notevoli differenze nel dominio visivo. Le metodologie attuali, come i VLM e i modelli del mondo, affrontano sfide a causa della loro incapacità di anticipare le azioni in scenari interattivi o della loro tendenza a sovradattarsi a segnali visivi invece di concentrarsi sui principi fondamentali. IPR sfrutta i rollout di modelli del mondo per potenziare la politica di un VLM attraverso punteggi e rinforzi, consentendo miglioramenti graduali basati sull'esperienza. Questa ricerca è documentata in arXiv:2511.15407.
Fatti principali
- IPR utilizza rollout di modelli del mondo per valutare e rinforzare la politica di un VLM
- PhysCode è un codice d'azione incentrato sulla fisica che allinea l'intento semantico con la dinamica
- Il benchmark G2U include oltre 1.000 giochi eterogenei
- I giochi presentano significative differenze nel dominio visivo
- I VLM e i modelli del mondo esistenti faticano con il ragionamento fisico e causale
- I VLM mancano di capacità di previsione in contesti interattivi
- I modelli del mondo imitano schemi visivi piuttosto che analizzare la fisica
- IPR consente agli agenti di acquisire un ragionamento simile a quello umano dall'interazione
Entità
Istituzioni
- arXiv