Multimodal Distribution Matching per la distillazione di dataset vision-linguaggio
Un team di ricercatori ha introdotto Multimodal Distribution Matching (MDM), un framework sensibile alla geometria per condensare ampi dataset vision-linguaggio in collezioni sintetiche più piccole. MDM affronta i problemi degli elevati costi computazionali e della trascuratezza delle relazioni cross-modali presenti negli approcci precedenti, integrando elementi a livello di dati, modello e perdita. Nella fase dei dati, genera coppie immagine-testo sintetiche attraverso il clustering in uno spazio di embedding congiunto. Sul fronte del modello, costruisce un insegnante misto combinando modelli fine-tuned basati sulla deviazione angolare da un anchor pre-addestrato. L'obiettivo di questo framework è mantenere la qualità della rappresentazione e l'allineamento cross-modale rispettando vincoli stringenti di calcolo e memoria.
Fatti principali
- arXiv:2605.23482v1
- Viene proposto Multimodal Distribution Matching (MDM) per la distillazione di dataset vision-linguaggio
- MDM è un framework sensibile alla geometria
- Integra componenti a livello di dati, modello e perdita
- Livello dati: inizializza coppie sintetiche campionando da cluster nello spazio di embedding congiunto
- Livello modello: forma un insegnante misto interpolando modelli fine-tuned nello spazio dei pesi
- Interpolazione basata sulla deviazione angolare da un anchor pre-addestrato
- Mira a preservare la qualità della rappresentazione e l'allineamento cross-modale sotto budget ristretti
Entità
Istituzioni
- arXiv