Minos: Un Modello di Valutazione Multimodale per la Generazione Immagine-Testo

other · 2026-04-30

I ricercatori hanno sviluppato Minos, un modello di valutazione multimodale progettato per valutare sia i compiti di generazione da immagine a testo (I2T) che da testo a immagine (T2I). Il modello è addestrato su un nuovo dataset, Minos-57K, che comprende 57.000 campioni di valutazione provenienti da 15 dataset, costruiti attraverso rigorose strategie di controllo qualità. Utilizzando il fine-tuning supervisionato e l'allineamento delle preferenze, Minos raggiunge prestazioni elevate nonostante utilizzi meno della metà dei dati di addestramento rispetto ai lavori precedenti. La ricerca affronta i limiti delle metriche di valutazione multimodale tradizionali e le prestazioni incoerenti dei modelli esistenti nei compiti I2T e T2I. L'articolo è disponibile su arXiv con identificativo 2506.02494.

Fatti principali

Minos è un modello di valutazione multimodale per compiti I2T e T2I.
Addestrato sul dataset Minos-57K con 57.000 campioni provenienti da 15 dataset.
Utilizza strategie di addestramento SFT e allineamento delle preferenze.
Utilizza meno della metà dei dati di addestramento rispetto ai lavori precedenti.
Affronta i limiti delle metriche di valutazione multimodale tradizionali.
Articolo disponibile su arXiv: 2506.02494.

Minos: Un Modello di Valutazione Multimodale per la Generazione Immagine-Testo

Fatti principali

Entità

Istituzioni

Fonti