Libra-VLA: Sistema Duale Grossolano-Fine per la Manipolazione Robotica

other · 2026-04-30

Un nuovo articolo di ricerca introduce Libra-VLA, un modello Visione-Linguaggio-Azione (VLA) progettato per la manipolazione robotica generalista. Il modello affronta i limiti dei paradigmi di generazione monolitica separando esplicitamente la complessità dell'apprendimento in una gerarchia grossolano-fine. Questo approccio modella azioni complesse in uno Spazio di Azione Ibrido, scomponendole in raggiungimento macro-direzionale discreto e allineamento micro-posa continuo. L'architettura mira a colmare il divario semantico-attuativo e ridurre il carico rappresentazionale di ancorare la semantica di alto livello ad azioni continue. L'articolo è pubblicato su arXiv con l'identificatore 2604.24921.

Fatti principali

Libra-VLA è una nuova architettura VLA a sistema duale grossolano-fine.
Affronta il paradigma di generazione monolitica nella manipolazione robotica.
Il modello utilizza uno Spazio di Azione Ibrido con componenti discreti e continui.
Scompone le azioni in raggiungimento macro-direzionale e allineamento micro-posa.
L'obiettivo è colmare il divario semantico-attuativo.
L'articolo è disponibile su arXiv con ID 2604.24921.
L'approccio mira a ridurre il carico rappresentazionale.
Si concentra sull'ancoraggio della semantica di alto livello in azioni continue.

Entità

—

Fonti

arXiv cs.AI — 2026-04-29