Ragionamento Interleaved Visione-Linguaggio per la Manipolazione Robotica a Lungo Orizzonte
È stato svelato un nuovo framework di IA chiamato Interleaved Vision-Language Reasoning (IVLR) per la manipolazione robotica a lungo orizzonte. Questo framework impiega una rappresentazione intermedia distinta chiamata traccia, che intercala fotogrammi chiave visivi con sotto-obiettivi testuali per l'intera durata del compito. Durante il test, un singolo trasformatore multimodale nativo crea questa traccia semantico-geometrica completa basandosi sull'osservazione iniziale e l'istruzione, la memorizza e la utilizza per condizionare un decodificatore di azione a ciclo chiuso insieme alla traccia, all'osservazione corrente e all'istruzione originale. Questo metodo supera le carenze delle attuali politiche Visione-Linguaggio-Azione che nascondono il ragionamento in stati latenti o rivelano solo una modalità. Il framework è descritto in un articolo disponibile su arXiv (2605.00438).
Fatti principali
- IVLR sta per Interleaved Vision-Language Reasoning
- Il framework è progettato per la manipolazione robotica a lungo orizzonte
- Utilizza una rappresentazione intermedia esplicita chiamata traccia
- La traccia alterna sotto-obiettivi testuali con fotogrammi chiave visivi
- Un singolo trasformatore multimodale nativo genera la traccia al momento del test
- La traccia viene memorizzata nella cache e condiziona un decodificatore di azione a ciclo chiuso
- L'articolo è disponibile su arXiv con ID 2605.00438
- IVLR affronta le limitazioni delle attuali politiche Visione-Linguaggio-Azione
Entità
Istituzioni
- arXiv