ARTFEED — Contemporary Art Intelligence

Multimodal Distribution Matching per la distillazione di dataset vision-linguaggio

ai-technology · 2026-05-25

Un team di ricercatori ha introdotto Multimodal Distribution Matching (MDM), un framework sensibile alla geometria per condensare ampi dataset vision-linguaggio in collezioni sintetiche più piccole. MDM affronta i problemi degli elevati costi computazionali e della trascuratezza delle relazioni cross-modali presenti negli approcci precedenti, integrando elementi a livello di dati, modello e perdita. Nella fase dei dati, genera coppie immagine-testo sintetiche attraverso il clustering in uno spazio di embedding congiunto. Sul fronte del modello, costruisce un insegnante misto combinando modelli fine-tuned basati sulla deviazione angolare da un anchor pre-addestrato. L'obiettivo di questo framework è mantenere la qualità della rappresentazione e l'allineamento cross-modale rispettando vincoli stringenti di calcolo e memoria.

Fatti principali

  • arXiv:2605.23482v1
  • Viene proposto Multimodal Distribution Matching (MDM) per la distillazione di dataset vision-linguaggio
  • MDM è un framework sensibile alla geometria
  • Integra componenti a livello di dati, modello e perdita
  • Livello dati: inizializza coppie sintetiche campionando da cluster nello spazio di embedding congiunto
  • Livello modello: forma un insegnante misto interpolando modelli fine-tuned nello spazio dei pesi
  • Interpolazione basata sulla deviazione angolare da un anchor pre-addestrato
  • Mira a preservare la qualità della rappresentazione e l'allineamento cross-modale sotto budget ristretti

Entità

Istituzioni

  • arXiv

Fonti