R$^3$L: Un Framework per la Generazione Affidabile di Layout 3D da Relazioni Spaziali Relative

other · 2026-05-11

Un nuovo framework chiamato R$^3$L è stato introdotto dai ricercatori per migliorare l'affidabilità e la coerenza del ragionamento spaziale relativo nella generazione di layout 3D. Questo studio affronta il problema per cui i Modelli Linguistici Multimodali su Larga Scala (MLLM) producono frequentemente relazioni spaziali inaffidabili, che di solito vengono corrette tramite euristiche post-hoc. L'osservazione principale è che il ragionamento multi-hop comporta trasformazioni ripetute dei sistemi di riferimento, causando derive semantiche e metriche. Per affrontare questa sfida, R$^3$L incorpora una decomposizione spaziale invariante per separare le catene di relazioni collegate, impiega un'immaginazione spaziale coerente tramite un ciclo di immaginazione e revisione, e utilizza un'ottimizzazione spaziale di supporto per facilitare l'ottimizzazione della posa. I risultati sono disponibili su arXiv con ID 2605.06758.

Fatti principali

R$^3$L è un framework per la generazione di layout 3D da relazioni spaziali relative.
Migliora l'affidabilità e la coerenza del ragionamento spaziale relativo.
I Modelli Linguistici Multimodali su Larga Scala (MLLM) vengono utilizzati per inferire relazioni spaziali.
Il ragionamento multi-hop causa accumulo di errori a causa delle trasformazioni dei sistemi di riferimento.
La decomposizione spaziale invariante separa le catene di relazioni accoppiate.
L'immaginazione spaziale coerente utilizza un ciclo di immaginazione e revisione.
L'ottimizzazione spaziale di supporto facilita l'ottimizzazione della posa.
L'articolo è disponibile su arXiv: 2605.06758.

R$^3$L: Un Framework per la Generazione Affidabile di Layout 3D da Relazioni Spaziali Relative

Fatti principali

Entità

Istituzioni

Fonti