Il framework StableI2I rileva modifiche indesiderate nelle transizioni immagine-immagine
I ricercatori hanno introdotto StableI2I, un framework di valutazione unificato che misura la fedeltà dei contenuti e la coerenza pre-post nei compiti immagine-immagine (I2I) senza immagini di riferimento. A differenza delle valutazioni esistenti che si concentrano sul seguire le istruzioni e sulla qualità percettiva, StableI2I valuta esplicitamente se le immagini di output preservano la corrispondenza semantica e la struttura spaziale. Il framework copre un'ampia gamma di scenari I2I, inclusi editing e restauro di immagini. Insieme al framework, il team ha costruito StableI2I-Bench, un benchmark per valutare sistematicamente i modelli linguistici multimodali di grandi dimensioni (MLLM) sulla valutazione della fedeltà e della coerenza. I risultati sperimentali mostrano che StableI2I fornisce valutazioni accurate, dettagliate e interpretabili con forti correlazioni con il giudizio umano. Il lavoro affronta una lacuna critica nella valutazione I2I garantendo che le immagini generate mantengano il contenuto e la struttura previsti.
Fatti principali
- StableI2I è un framework di valutazione unificato per compiti immagine-immagine.
- Misura la fedeltà dei contenuti e la coerenza pre-post senza immagini di riferimento.
- Le valutazioni I2I esistenti si concentrano sul seguire le istruzioni e sulla qualità percettiva.
- StableI2I valuta la corrispondenza semantica e la preservazione della struttura spaziale.
- Il framework si applica all'editing e al restauro di immagini.
- StableI2I-Bench valuta gli MLLM su compiti di fedeltà e coerenza.
- I risultati sperimentali mostrano forti correlazioni con il giudizio umano.
- Il lavoro affronta una lacuna nella valutazione I2I per la fedeltà dei contenuti.
Entità
—