Primo framework di apprendimento attivo multimodale per dati non allineati
Un framework innovativo per l'apprendimento attivo multimodale che utilizza dati non allineati è stato presentato dai ricercatori, affrontando una sfida significativa nei sistemi multimodali contemporanei. A differenza dei metodi tradizionali di apprendimento attivo che si concentrano su dati unimodali, questa strategia innovativa consente al learner di cercare allineamenti cross-modali invece di limitarsi a etichettare coppie pre-allineate. L'algoritmo integra principi di incertezza e diversità all'interno di un framework modality-aware, raggiungendo un'acquisizione in tempo lineare applicabile sia a scenari pool-based che streaming. I test su dataset benchmark dimostrano una costante riduzione delle spese di annotazione multimodale, mantenendo i livelli di performance. Questa ricerca è documentata su arXiv:2510.03247.
Fatti principali
- Primo framework per l'apprendimento attivo multimodale con dati non allineati
- Il learner acquisisce attivamente allineamenti cross-modali, non etichette su coppie pre-allineate
- L'algoritmo combina principi di incertezza e diversità in un design modality-aware
- Raggiunge un'acquisizione in tempo lineare
- Si applica sia a contesti pool-based che streaming
- Esperimenti su dataset benchmark mostrano una riduzione del costo di annotazione multimodale
- Affronta un collo di bottiglia pratico dove le caratteristiche unimodali sono facili ma l'allineamento è costoso
- Pubblicato su arXiv con ID 2510.03247
Entità
Istituzioni
- arXiv