Ragionamento Interleaved Visione-Linguaggio per la Manipolazione Robotica a Lungo Orizzonte

ai-technology · 2026-05-04

È stato svelato un nuovo framework di IA chiamato Interleaved Vision-Language Reasoning (IVLR) per la manipolazione robotica a lungo orizzonte. Questo framework impiega una rappresentazione intermedia distinta chiamata traccia, che intercala fotogrammi chiave visivi con sotto-obiettivi testuali per l'intera durata del compito. Durante il test, un singolo trasformatore multimodale nativo crea questa traccia semantico-geometrica completa basandosi sull'osservazione iniziale e l'istruzione, la memorizza e la utilizza per condizionare un decodificatore di azione a ciclo chiuso insieme alla traccia, all'osservazione corrente e all'istruzione originale. Questo metodo supera le carenze delle attuali politiche Visione-Linguaggio-Azione che nascondono il ragionamento in stati latenti o rivelano solo una modalità. Il framework è descritto in un articolo disponibile su arXiv (2605.00438).

Fatti principali

IVLR sta per Interleaved Vision-Language Reasoning
Il framework è progettato per la manipolazione robotica a lungo orizzonte
Utilizza una rappresentazione intermedia esplicita chiamata traccia
La traccia alterna sotto-obiettivi testuali con fotogrammi chiave visivi
Un singolo trasformatore multimodale nativo genera la traccia al momento del test
La traccia viene memorizzata nella cache e condiziona un decodificatore di azione a ciclo chiuso
L'articolo è disponibile su arXiv con ID 2605.00438
IVLR affronta le limitazioni delle attuali politiche Visione-Linguaggio-Azione

Ragionamento Interleaved Visione-Linguaggio per la Manipolazione Robotica a Lungo Orizzonte

Fatti principali

Entità

Istituzioni

Fonti