VLA-Forget: Disimparare per i Modelli Fondamentali Incarnati

ai-technology · 2026-04-25

È stata introdotta una nuova tecnica di disimparaggio denominata VLA-Forget per i modelli Visione-Linguaggio-Azione (VLA) utilizzati nella manipolazione robotica. Questi modelli fondamentali, tra cui OpenVLA, combinano encoder visivi, proiettori cross-modali e backbone linguistici per prevedere azioni tokenizzate per i robot. La sfida principale consiste nell'eliminare comportamenti non sicuri, irrilevanti o sensibili alla privacy senza compromettere la percezione, il grounding linguistico o il controllo delle azioni. A differenza dei modelli di visione o linguaggio indipendenti, la conoscenza indesiderata nei modelli VLA è distribuita su vari strati, rendendo inadeguato un disimparaggio parziale. VLA-Forget impiega una strategia ibrida volta ad affrontare simultaneamente tutti i moduli pertinenti. Questo metodo mira a facilitare un dimenticanza efficace riducendo al contempo la perdita di utilità. I risultati sono pubblicati su arXiv:2604.03956v2.

Fatti principali

1. VLA-Forget si concentra sul disimparaggio nei modelli Visione-Linguaggio-Azione.
2. Le politiche in stile OpenVLA fondono encoder visivo, proiettore cross-modale e backbone linguistico.
3. La conoscenza indesiderata è distribuita tra gli strati di percezione, allineamento e ragionamento.
4. Il disimparaggio parziale solo sulla visione o sul linguaggio è insufficiente.
5. Le baseline convenzionali di disimparaggio possono lasciare residui di dimenticanza o causare perdita di utilità.
6. VLA-Forget è un metodo di disimparaggio ibrido.
7. Il metodo rimuove comportamenti non sicuri, spurii o sensibili alla privacy.
8. La ricerca è pubblicata su arXiv con ID 2604.03956v2.

VLA-Forget: Disimparare per i Modelli Fondamentali Incarnati

Fatti principali

Entità

Istituzioni

Fonti