ARTFEED — Contemporary Art Intelligence

MONET: Rilasciato un dataset open-source di 104,9 milioni di coppie immagine-testo

digital · 2026-05-22

MONET, un nuovo dataset aperto rilasciato con licenza Apache 2.0, è composto da circa 104,9 milioni di coppie immagine-testo provenienti da 2,9 miliardi di coppie grezze ottenute da diverse piattaforme aperte. Questo dataset è stato sottoposto a molteplici processi di filtraggio per la sicurezza e per dominio, nonché alla rimozione di duplicati esatti e quasi identici, ed è stato re-didascalizzato utilizzando vari modelli visione-linguaggio che vanno da descrizioni brevi a lunghe. Inoltre, include campioni generati sinteticamente. Ogni immagine è accompagnata da embedding e annotazioni pre-calcolati per facilitare le applicazioni downstream. Per testare MONET, un modello di diffusione latente con 4 miliardi di parametri addestrato esclusivamente su questo dataset ha ottenuto punteggi notevoli su GenEval e DPG, promuovendo una ricerca aperta e riproducibile nella generazione testo-immagine.

Fatti principali

  • Il dataset MONET contiene circa 104,9 milioni di coppie immagine-testo
  • Proviene da 2,9 miliardi di coppie grezze da fonti aperte eterogenee
  • Include filtraggio per sicurezza, filtraggio per dominio, deduplicazione e re-didascalizzazione
  • Re-didascalizzato con molteplici modelli visione-linguaggio
  • Arricchito con campioni generati sinteticamente
  • Ogni immagine ha embedding e annotazioni pre-calcolati
  • Un modello di diffusione latente con 4 miliardi di parametri addestrato su MONET ha ottenuto punteggi competitivi su GenEval e DPG
  • Dataset rilasciato con licenza Apache 2.0

Entità

Fonti