ForgeVLA: Apprendimento Robotico Federato Senza Etichette Linguistiche
I ricercatori propongono ForgeVLA, un framework di apprendimento federato per modelli Visione-Linguaggio-Azione (VLA) che elimina la necessità di annotazioni linguistiche manuali. Il sistema si addestra su coppie visione-azione distribuite provenienti da robot in diversi domini senza centralizzare i dati grezzi. Ogni client utilizza un classificatore di istruzioni incarnato per mappare le coppie visione-azione a istruzioni predefinite, recuperando la modalità linguistica mancante. Questo approccio affronta l'eterogeneità dei dati e i vincoli di privacy, scalando efficientemente l'addestramento VLA. L'articolo è disponibile su arXiv con ID 2605.07474.
Fatti principali
- ForgeVLA è un framework di addestramento VLA federato.
- Apprende da coppie visione-azione distribuite senza centralizzare i dati grezzi.
- Non richiede annotazioni linguistiche manuali.
- Ogni client utilizza un classificatore di istruzioni incarnato.
- Il classificatore mappa le coppie visione-azione a un insieme di istruzioni predefinito.
- L'approccio affronta l'eterogeneità dei dati e i vincoli di privacy.
- L'articolo è su arXiv con ID 2605.07474.
- Il framework mira a scalare i modelli VLA per l'intelligenza robotica generale.
Entità
Istituzioni
- arXiv