ARTFEED — Contemporary Art Intelligence

VLAs-as-Tools: Una Nuova Strategia per Compiti Robotici a Lungo Orizzonte

ai-technology · 2026-05-14

Un nuovo framework chiamato VLAs-as-Tools è stato introdotto dai ricercatori, integrando un agente di modello linguistico-visivo (VLM) di alto livello progettato per il ragionamento temporale con strumenti specifici di visione-linguaggio-azione (VLA) per compiti localizzati. Il VLM è responsabile dell'analisi delle scene, della pianificazione su scala globale e della gestione del recupero, mentre ogni strumento VLA esegue un sottocompito definito. Un'interfaccia per la famiglia di strumenti VLA consente una ri-pianificazione efficace attivata da eventi, eliminando la necessità di un polling costante dell'agente. Inoltre, il Tool-Aligned Post-Training garantisce che gli strumenti VLA rispondano accuratamente alle richieste dell'agente. Questo metodo affronta efficacemente le sfide della pianificazione prolungata a ciclo chiuso e di una varietà di operazioni fisiche in compiti con orizzonti lunghi.

Fatti principali

  • 1. VLAs-as-Tools distribuisce pianificazione ed esecuzione tra un agente VLM e strumenti VLA specializzati.
  • 2. Il VLM gestisce l'analisi della scena, la pianificazione globale e il recupero.
  • 3. Ogni strumento VLA esegue un sottocompito limitato.
  • 4. Un'interfaccia per la famiglia di strumenti VLA consente la ri-pianificazione attivata da eventi senza polling continuo dell'agente.
  • 5. Il Tool-Aligned Post-Training garantisce che gli strumenti VLA seguano le invocazioni dell'agente.
  • 6. L'approccio è mirato a compiti a lungo orizzonte con diverse operazioni fisiche.
  • 7. Il paper è disponibile su arXiv con ID 2605.13119.
  • 8. Il tipo di annuncio è cross.

Entità

Istituzioni

  • arXiv

Fonti