MONET: Rilasciato un dataset open-source di 104,9 milioni di coppie immagine-testo

digital · 2026-05-22

MONET, un nuovo dataset aperto rilasciato con licenza Apache 2.0, è composto da circa 104,9 milioni di coppie immagine-testo provenienti da 2,9 miliardi di coppie grezze ottenute da diverse piattaforme aperte. Questo dataset è stato sottoposto a molteplici processi di filtraggio per la sicurezza e per dominio, nonché alla rimozione di duplicati esatti e quasi identici, ed è stato re-didascalizzato utilizzando vari modelli visione-linguaggio che vanno da descrizioni brevi a lunghe. Inoltre, include campioni generati sinteticamente. Ogni immagine è accompagnata da embedding e annotazioni pre-calcolati per facilitare le applicazioni downstream. Per testare MONET, un modello di diffusione latente con 4 miliardi di parametri addestrato esclusivamente su questo dataset ha ottenuto punteggi notevoli su GenEval e DPG, promuovendo una ricerca aperta e riproducibile nella generazione testo-immagine.

Fatti principali

Il dataset MONET contiene circa 104,9 milioni di coppie immagine-testo
Proviene da 2,9 miliardi di coppie grezze da fonti aperte eterogenee
Include filtraggio per sicurezza, filtraggio per dominio, deduplicazione e re-didascalizzazione
Re-didascalizzato con molteplici modelli visione-linguaggio
Arricchito con campioni generati sinteticamente
Ogni immagine ha embedding e annotazioni pre-calcolati
Un modello di diffusione latente con 4 miliardi di parametri addestrato su MONET ha ottenuto punteggi competitivi su GenEval e DPG
Dataset rilasciato con licenza Apache 2.0

Entità

—

Fonti

arXiv cs.AI — 2026-05-21