Multimodal Distribution Matching per la distillazione di dataset vision-linguaggio

ai-technology · 2026-05-25

Un team di ricercatori ha introdotto Multimodal Distribution Matching (MDM), un framework sensibile alla geometria per condensare ampi dataset vision-linguaggio in collezioni sintetiche più piccole. MDM affronta i problemi degli elevati costi computazionali e della trascuratezza delle relazioni cross-modali presenti negli approcci precedenti, integrando elementi a livello di dati, modello e perdita. Nella fase dei dati, genera coppie immagine-testo sintetiche attraverso il clustering in uno spazio di embedding congiunto. Sul fronte del modello, costruisce un insegnante misto combinando modelli fine-tuned basati sulla deviazione angolare da un anchor pre-addestrato. L'obiettivo di questo framework è mantenere la qualità della rappresentazione e l'allineamento cross-modale rispettando vincoli stringenti di calcolo e memoria.

Fatti principali

arXiv:2605.23482v1
Viene proposto Multimodal Distribution Matching (MDM) per la distillazione di dataset vision-linguaggio
MDM è un framework sensibile alla geometria
Integra componenti a livello di dati, modello e perdita
Livello dati: inizializza coppie sintetiche campionando da cluster nello spazio di embedding congiunto
Livello modello: forma un insegnante misto interpolando modelli fine-tuned nello spazio dei pesi
Interpolazione basata sulla deviazione angolare da un anchor pre-addestrato
Mira a preservare la qualità della rappresentazione e l'allineamento cross-modale sotto budget ristretti

Multimodal Distribution Matching per la distillazione di dataset vision-linguaggio

Fatti principali

Entità

Istituzioni

Fonti