VLA-Forget: Disimparare per i Modelli Fondamentali Incarnati
È stata introdotta una nuova tecnica di disimparaggio denominata VLA-Forget per i modelli Visione-Linguaggio-Azione (VLA) utilizzati nella manipolazione robotica. Questi modelli fondamentali, tra cui OpenVLA, combinano encoder visivi, proiettori cross-modali e backbone linguistici per prevedere azioni tokenizzate per i robot. La sfida principale consiste nell'eliminare comportamenti non sicuri, irrilevanti o sensibili alla privacy senza compromettere la percezione, il grounding linguistico o il controllo delle azioni. A differenza dei modelli di visione o linguaggio indipendenti, la conoscenza indesiderata nei modelli VLA è distribuita su vari strati, rendendo inadeguato un disimparaggio parziale. VLA-Forget impiega una strategia ibrida volta ad affrontare simultaneamente tutti i moduli pertinenti. Questo metodo mira a facilitare un dimenticanza efficace riducendo al contempo la perdita di utilità. I risultati sono pubblicati su arXiv:2604.03956v2.
Fatti principali
- 1. VLA-Forget si concentra sul disimparaggio nei modelli Visione-Linguaggio-Azione.
- 2. Le politiche in stile OpenVLA fondono encoder visivo, proiettore cross-modale e backbone linguistico.
- 3. La conoscenza indesiderata è distribuita tra gli strati di percezione, allineamento e ragionamento.
- 4. Il disimparaggio parziale solo sulla visione o sul linguaggio è insufficiente.
- 5. Le baseline convenzionali di disimparaggio possono lasciare residui di dimenticanza o causare perdita di utilità.
- 6. VLA-Forget è un metodo di disimparaggio ibrido.
- 7. Il metodo rimuove comportamenti non sicuri, spurii o sensibili alla privacy.
- 8. La ricerca è pubblicata su arXiv con ID 2604.03956v2.
Entità
Istituzioni
- arXiv