MONET: Rilasciato un dataset open-source di 104,9 milioni di coppie immagine-testo
MONET, un nuovo dataset aperto rilasciato con licenza Apache 2.0, è composto da circa 104,9 milioni di coppie immagine-testo provenienti da 2,9 miliardi di coppie grezze ottenute da diverse piattaforme aperte. Questo dataset è stato sottoposto a molteplici processi di filtraggio per la sicurezza e per dominio, nonché alla rimozione di duplicati esatti e quasi identici, ed è stato re-didascalizzato utilizzando vari modelli visione-linguaggio che vanno da descrizioni brevi a lunghe. Inoltre, include campioni generati sinteticamente. Ogni immagine è accompagnata da embedding e annotazioni pre-calcolati per facilitare le applicazioni downstream. Per testare MONET, un modello di diffusione latente con 4 miliardi di parametri addestrato esclusivamente su questo dataset ha ottenuto punteggi notevoli su GenEval e DPG, promuovendo una ricerca aperta e riproducibile nella generazione testo-immagine.
Fatti principali
- Il dataset MONET contiene circa 104,9 milioni di coppie immagine-testo
- Proviene da 2,9 miliardi di coppie grezze da fonti aperte eterogenee
- Include filtraggio per sicurezza, filtraggio per dominio, deduplicazione e re-didascalizzazione
- Re-didascalizzato con molteplici modelli visione-linguaggio
- Arricchito con campioni generati sinteticamente
- Ogni immagine ha embedding e annotazioni pre-calcolati
- Un modello di diffusione latente con 4 miliardi di parametri addestrato su MONET ha ottenuto punteggi competitivi su GenEval e DPG
- Dataset rilasciato con licenza Apache 2.0
Entità
—