I modelli di diffusione faticano con la generazione multi-oggetto, secondo uno studio

ai-technology · 2026-05-04

Uno studio recente pubblicato su arXiv (2605.00273) esamina le difficoltà che i modelli di diffusione testo-immagine incontrano nel produrre più oggetti. Gli autori presentano Mosaic, un approccio strutturato per generare dataset volto a chiarire gli impatti dei dati. I loro risultati rivelano che la complessità delle scene, piuttosto che uno squilibrio nei concetti, è la ragione principale di queste carenze. Inoltre, evidenziano che imparare a contare è particolarmente difficile in scenari con dati limitati.

Fatti principali

I modelli di diffusione sono inaffidabili nella generazione multi-oggetto.
Lo studio introduce Mosaic (Multi-Object Spatial relations, Attribution, Counting).
La complessità della scena gioca un ruolo dominante rispetto allo squilibrio dei concetti.
Contare è particolarmente difficile da apprendere in regimi con pochi dati.
L'articolo proviene da arXiv:2605.00273.

I modelli di diffusione faticano con la generazione multi-oggetto, secondo uno studio

Fatti principali

Entità

Istituzioni

Fonti