ARTFEED — Contemporary Art Intelligence

ForgeVLA: Apprendimento Robotico Federato Senza Etichette Linguistiche

ai-technology · 2026-05-11

I ricercatori propongono ForgeVLA, un framework di apprendimento federato per modelli Visione-Linguaggio-Azione (VLA) che elimina la necessità di annotazioni linguistiche manuali. Il sistema si addestra su coppie visione-azione distribuite provenienti da robot in diversi domini senza centralizzare i dati grezzi. Ogni client utilizza un classificatore di istruzioni incarnato per mappare le coppie visione-azione a istruzioni predefinite, recuperando la modalità linguistica mancante. Questo approccio affronta l'eterogeneità dei dati e i vincoli di privacy, scalando efficientemente l'addestramento VLA. L'articolo è disponibile su arXiv con ID 2605.07474.

Fatti principali

  • ForgeVLA è un framework di addestramento VLA federato.
  • Apprende da coppie visione-azione distribuite senza centralizzare i dati grezzi.
  • Non richiede annotazioni linguistiche manuali.
  • Ogni client utilizza un classificatore di istruzioni incarnato.
  • Il classificatore mappa le coppie visione-azione a un insieme di istruzioni predefinito.
  • L'approccio affronta l'eterogeneità dei dati e i vincoli di privacy.
  • L'articolo è su arXiv con ID 2605.07474.
  • Il framework mira a scalare i modelli VLA per l'intelligenza robotica generale.

Entità

Istituzioni

  • arXiv

Fonti