M-ORE: Editing Online a Decoupling delle Modalità per MLLM

ai-technology · 2026-05-22

I ricercatori hanno introdotto M-ORE, un editor ricorsivo online che separa le modalità per l'adattamento continuo dei modelli linguistici multimodali di grandi dimensioni (MLLM). Gli attuali editor di LLM solo testuali faticano con gli MLLM a causa di conflitti derivanti da attivazioni visivamente dominanti e interferenze da modifiche sequenziali. M-ORE utilizza un approccio unificato di proiezione prossimale, impiegando un aggiornamento in forma chiusa tramite ricorsione di Sherman-Morrison, che garantisce un overhead costante per ogni modifica. Preserva statistiche di località specifiche del modulo sia per lo stack di testo che per il proiettore visivo per evitare aggiornamenti dominati da input visivi, mentre esegue aggiornamenti continui in uno spazio di modifica ortogonale a basso rango stabile. Questo metodo è progettato per l'editing online di modelli con vincoli stringenti di calcolo e memoria.

Fatti principali

1. M-ORE affronta il conflitto cross-modale e l'interferenza tra modifiche nell'editing di MLLM.
2. Utilizza la ricorsione di Sherman-Morrison per un overhead costante per modifica.
3. Mantiene statistiche di località per modulo per lo stack di testo e il proiettore visivo.
4. Esegue aggiornamenti in uno spazio di modifica ortogonale a basso rango fisso.
5. Progettato per l'adattamento lifelong degli MLLM.
6. Numero del paper arXiv: 2605.20273.
7. Pubblicato su arXiv.
8. Propone un aggiornamento in forma chiusa per l'editing online.

M-ORE: Editing Online a Decoupling delle Modalità per MLLM

Fatti principali

Entità

Istituzioni

Fonti