StrLoRA: Un Nuovo Framework per l'Addestramento Continuo Istruzionale Visivo in Streaming

ai-technology · 2026-05-20

Per affrontare le carenze delle attuali tecniche di Continual Visual Instruction Tuning (CVIT), i ricercatori hanno introdotto StrLoRA, un framework di routing a due stadi con regolarizzazione. I metodi CVIT tradizionali operano in un contesto limitato di task-incrementale, dove ogni segmento di addestramento è legato a un compito specifico e predeterminato. Ciò non rispecchia scenari reali, in cui i dati vengono ricevuti come un flusso continuo di compiti misti e in evoluzione. Per superare questa sfida, gli autori presentano Streaming CVIT (StrCVIT), un framework più completo e realistico che consente ai modelli di apprendere da flussi di dati composti da compiti vari. In StrCVIT, i modelli devono sviluppare nuove abilità, rafforzare quelle esistenti e ridurre l'oblio. Il documento che descrive questo lavoro è disponibile su arXiv con l'identificatore 2605.16353.

Fatti principali

StrLoRA è un framework di routing a due stadi con regolarizzazione per l'addestramento continuo istruzionale visivo in streaming.
I metodi CVIT esistenti operano in un contesto restrittivo di task-incrementale.
Streaming CVIT (StrCVIT) viene introdotto come un contesto più realistico con compiti intervallati e in evoluzione dinamica.
In StrCVIT, i modelli devono acquisire nuove abilità, rafforzare abilità ricorrenti e mitigare l'oblio.
I metodi CVIT esistenti falliscono in StrCVIT perché non possono distinguere o adattarsi a campioni di compiti eterogenei.
StrLoRA esegue l'identificazione del compito seguita dall'adattamento specifico del compito.
Il documento è pubblicato su arXiv con identificatore 2605.16353.
Il lavoro si concentra su Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM).

StrLoRA: Un Nuovo Framework per l'Addestramento Continuo Istruzionale Visivo in Streaming

Fatti principali

Entità

Istituzioni

Fonti