ForgeVLA: Apprendimento Robotico Federato Senza Etichette Linguistiche

ai-technology · 2026-05-11

I ricercatori propongono ForgeVLA, un framework di apprendimento federato per modelli Visione-Linguaggio-Azione (VLA) che elimina la necessità di annotazioni linguistiche manuali. Il sistema si addestra su coppie visione-azione distribuite provenienti da robot in diversi domini senza centralizzare i dati grezzi. Ogni client utilizza un classificatore di istruzioni incarnato per mappare le coppie visione-azione a istruzioni predefinite, recuperando la modalità linguistica mancante. Questo approccio affronta l'eterogeneità dei dati e i vincoli di privacy, scalando efficientemente l'addestramento VLA. L'articolo è disponibile su arXiv con ID 2605.07474.

Fatti principali

ForgeVLA è un framework di addestramento VLA federato.
Apprende da coppie visione-azione distribuite senza centralizzare i dati grezzi.
Non richiede annotazioni linguistiche manuali.
Ogni client utilizza un classificatore di istruzioni incarnato.
Il classificatore mappa le coppie visione-azione a un insieme di istruzioni predefinito.
L'approccio affronta l'eterogeneità dei dati e i vincoli di privacy.
L'articolo è su arXiv con ID 2605.07474.
Il framework mira a scalare i modelli VLA per l'intelligenza robotica generale.

ForgeVLA: Apprendimento Robotico Federato Senza Etichette Linguistiche

Fatti principali

Entità

Istituzioni

Fonti