StrLoRA: Un Nuovo Framework per l'Addestramento Continuo Istruzionale Visivo in Streaming
Per affrontare le carenze delle attuali tecniche di Continual Visual Instruction Tuning (CVIT), i ricercatori hanno introdotto StrLoRA, un framework di routing a due stadi con regolarizzazione. I metodi CVIT tradizionali operano in un contesto limitato di task-incrementale, dove ogni segmento di addestramento è legato a un compito specifico e predeterminato. Ciò non rispecchia scenari reali, in cui i dati vengono ricevuti come un flusso continuo di compiti misti e in evoluzione. Per superare questa sfida, gli autori presentano Streaming CVIT (StrCVIT), un framework più completo e realistico che consente ai modelli di apprendere da flussi di dati composti da compiti vari. In StrCVIT, i modelli devono sviluppare nuove abilità, rafforzare quelle esistenti e ridurre l'oblio. Il documento che descrive questo lavoro è disponibile su arXiv con l'identificatore 2605.16353.
Fatti principali
- StrLoRA è un framework di routing a due stadi con regolarizzazione per l'addestramento continuo istruzionale visivo in streaming.
- I metodi CVIT esistenti operano in un contesto restrittivo di task-incrementale.
- Streaming CVIT (StrCVIT) viene introdotto come un contesto più realistico con compiti intervallati e in evoluzione dinamica.
- In StrCVIT, i modelli devono acquisire nuove abilità, rafforzare abilità ricorrenti e mitigare l'oblio.
- I metodi CVIT esistenti falliscono in StrCVIT perché non possono distinguere o adattarsi a campioni di compiti eterogenei.
- StrLoRA esegue l'identificazione del compito seguita dall'adattamento specifico del compito.
- Il documento è pubblicato su arXiv con identificatore 2605.16353.
- Il lavoro si concentra su Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM).
Entità
Istituzioni
- arXiv