R$^3$L: Un Framework per la Generazione Affidabile di Layout 3D da Relazioni Spaziali Relative
Un nuovo framework chiamato R$^3$L è stato introdotto dai ricercatori per migliorare l'affidabilità e la coerenza del ragionamento spaziale relativo nella generazione di layout 3D. Questo studio affronta il problema per cui i Modelli Linguistici Multimodali su Larga Scala (MLLM) producono frequentemente relazioni spaziali inaffidabili, che di solito vengono corrette tramite euristiche post-hoc. L'osservazione principale è che il ragionamento multi-hop comporta trasformazioni ripetute dei sistemi di riferimento, causando derive semantiche e metriche. Per affrontare questa sfida, R$^3$L incorpora una decomposizione spaziale invariante per separare le catene di relazioni collegate, impiega un'immaginazione spaziale coerente tramite un ciclo di immaginazione e revisione, e utilizza un'ottimizzazione spaziale di supporto per facilitare l'ottimizzazione della posa. I risultati sono disponibili su arXiv con ID 2605.06758.
Fatti principali
- R$^3$L è un framework per la generazione di layout 3D da relazioni spaziali relative.
- Migliora l'affidabilità e la coerenza del ragionamento spaziale relativo.
- I Modelli Linguistici Multimodali su Larga Scala (MLLM) vengono utilizzati per inferire relazioni spaziali.
- Il ragionamento multi-hop causa accumulo di errori a causa delle trasformazioni dei sistemi di riferimento.
- La decomposizione spaziale invariante separa le catene di relazioni accoppiate.
- L'immaginazione spaziale coerente utilizza un ciclo di immaginazione e revisione.
- L'ottimizzazione spaziale di supporto facilita l'ottimizzazione della posa.
- L'articolo è disponibile su arXiv: 2605.06758.
Entità
Istituzioni
- arXiv