UAM: Una Prospettiva a Doppio Flusso sull'Oblio nell'Addestramento VLA

ai-technology · 2026-05-18

Uno studio recente pubblicato su arXiv (2605.15735) indica che il tipico processo di fine-tuning per i modelli visione-linguaggio-azione (VLA) derivati da modelli visione-linguaggio pre-addestrati (VLM) porta a un graduale declino delle capacità multimodali, definito 'tassa di incarnazione'. I ricercatori attribuiscono questo declino a una limitazione strutturale: i VLA esistenti utilizzano un unico encoder sia per la semantica basata sul linguaggio che per le caratteristiche visive rilevanti per il controllo, a differenza della visione naturale, che differenzia il riconoscimento dal controllo visuomotorio. Per rimediare a questo problema, introducono il Modello di Azione Unificato (UAM), che incorpora un Esperto Dorsale parallelo, rispecchiando la via dorsale del cervello. Questo Esperto Dorsale viene inizializzato da un modello generativo pre-addestrato e addestrato con un obiettivo di livello intermedio per alleviare le richieste di apprendimento del controllo sul VLM. Il documento non rivela autori o affiliazioni.

Fatti principali

Il paper arXiv:2605.15735 propone il Modello di Azione Unificato (UAM).
Il fine-tuning standard dei VLA causa una 'tassa di incarnazione'—erosione della competenza multimodale.
Collo di bottiglia identificato: unico encoder per semantica e controllo.
UAM aggiunge un Esperto Dorsale parallelo ispirato alla visione biologica.
L'Esperto Dorsale è inizializzato da un modello generativo pre-addestrato.
L'obiettivo di addestramento di livello intermedio riduce il carico di apprendimento del controllo sul VLM.
Tipo di annuncio: cross.
Nell'abstract non vengono nominati autori o istituzioni.

Entità

—

Fonti

arXiv cs.AI — 2026-05-18