LoopVLA: Perfezionamento Ricorsivo per Modelli Visione-Linguaggio-Azione

ai-technology · 2026-05-12

Una recente pubblicazione presenta LoopVLA, un'architettura ricorsiva per Visione-Linguaggio-Azione (VLA) che migliora simultaneamente il perfezionamento delle rappresentazioni, predice le azioni e stima la sufficienza. Mentre i modelli VLA tradizionali assumono che la rappresentazione più profonda sia sempre ottimale, la manipolazione robotica spesso richiede aggiustamenti spaziali in tempo reale, dove un'eccessiva astrazione può ostacolare il calcolo e oscurare i segnali geometrici. Gli attuali metodi di early-exit mirano a minimizzare il calcolo terminando a layer specifici o seguendo linee guida euristiche come la coerenza dell'azione, ma non riescono a determinare quando una rappresentazione è adeguata. LoopVLA utilizza iterativamente un blocco Transformer condiviso per perfezionare i token multimodali, generando in ogni ciclo un'azione candidata e un punteggio di sufficienza. Questo studio è stato pubblicato su arXiv con ID 2605.09948.

Fatti principali

LoopVLA è un'architettura VLA ricorsiva.
Apprende congiuntamente il perfezionamento delle rappresentazioni, la predizione delle azioni e la stima della sufficienza.
Gli attuali modelli VLA usano la rappresentazione più profonda come universalmente ottimale.
La manipolazione robotica comporta frequenti aggiustamenti spaziali a ciclo chiuso.
Un'eccessiva astrazione spreca calcolo e indebolisce gli indizi geometrici.
Le strategie di early-exit esistenti usano layer predefiniti o regole euristiche.
LoopVLA applica iterativamente un blocco Transformer condiviso.
Ad ogni iterazione, produce un'azione candidata e un punteggio di sufficienza.

Entità

—

Fonti

arXiv cs.AI — 2026-05-12