Minos: Un Modello di Valutazione Multimodale per la Generazione Immagine-Testo
I ricercatori hanno sviluppato Minos, un modello di valutazione multimodale progettato per valutare sia i compiti di generazione da immagine a testo (I2T) che da testo a immagine (T2I). Il modello è addestrato su un nuovo dataset, Minos-57K, che comprende 57.000 campioni di valutazione provenienti da 15 dataset, costruiti attraverso rigorose strategie di controllo qualità. Utilizzando il fine-tuning supervisionato e l'allineamento delle preferenze, Minos raggiunge prestazioni elevate nonostante utilizzi meno della metà dei dati di addestramento rispetto ai lavori precedenti. La ricerca affronta i limiti delle metriche di valutazione multimodale tradizionali e le prestazioni incoerenti dei modelli esistenti nei compiti I2T e T2I. L'articolo è disponibile su arXiv con identificativo 2506.02494.
Fatti principali
- Minos è un modello di valutazione multimodale per compiti I2T e T2I.
- Addestrato sul dataset Minos-57K con 57.000 campioni provenienti da 15 dataset.
- Utilizza strategie di addestramento SFT e allineamento delle preferenze.
- Utilizza meno della metà dei dati di addestramento rispetto ai lavori precedenti.
- Affronta i limiti delle metriche di valutazione multimodale tradizionali.
- Articolo disponibile su arXiv: 2506.02494.
Entità
Istituzioni
- arXiv