DMGD: Distillazione del Dataset Senza Addestramento tramite Modelli di Diffusione

other · 2026-05-07

Un nuovo framework chiamato Dual Matching Guided Diffusion (DMGD) propone la distillazione del dataset senza addestramento utilizzando l'allineamento semantico e distributivo. Elimina la necessità di fine-tuning ottimizzando la verosimiglianza condizionale per l'allineamento semantico e impiega il trasporto ottimale per l'allineamento distributivo. Il metodo migliora la diversità dei dati sintetici mantenendo l'allineamento con i dataset originali.

Fatti principali

1. DMGD sta per Dual Matching Guided Diffusion.
2. Il framework è senza addestramento, non richiede fine-tuning.
3. L'allineamento semantico utilizza l'ottimizzazione della verosimiglianza condizionale.
4. Un meccanismo di guida dinamica migliora la diversità dei dati sintetici.
5. L'allineamento distributivo basato sul trasporto ottimale (OT) allinea le distribuzioni.
6. L'approccio affronta i limiti della distillazione del dataset basata su diffusione.
7. L'articolo è disponibile su arXiv con ID 2605.03877v1.
8. Il metodo elimina la necessità di classificatori ausiliari.

DMGD: Distillazione del Dataset Senza Addestramento tramite Modelli di Diffusione

Fatti principali

Entità

Istituzioni

Fonti