Il framework StableI2I rileva modifiche indesiderate nelle transizioni immagine-immagine

ai-technology · 2026-05-07

I ricercatori hanno introdotto StableI2I, un framework di valutazione unificato che misura la fedeltà dei contenuti e la coerenza pre-post nei compiti immagine-immagine (I2I) senza immagini di riferimento. A differenza delle valutazioni esistenti che si concentrano sul seguire le istruzioni e sulla qualità percettiva, StableI2I valuta esplicitamente se le immagini di output preservano la corrispondenza semantica e la struttura spaziale. Il framework copre un'ampia gamma di scenari I2I, inclusi editing e restauro di immagini. Insieme al framework, il team ha costruito StableI2I-Bench, un benchmark per valutare sistematicamente i modelli linguistici multimodali di grandi dimensioni (MLLM) sulla valutazione della fedeltà e della coerenza. I risultati sperimentali mostrano che StableI2I fornisce valutazioni accurate, dettagliate e interpretabili con forti correlazioni con il giudizio umano. Il lavoro affronta una lacuna critica nella valutazione I2I garantendo che le immagini generate mantengano il contenuto e la struttura previsti.

Fatti principali

StableI2I è un framework di valutazione unificato per compiti immagine-immagine.
Misura la fedeltà dei contenuti e la coerenza pre-post senza immagini di riferimento.
Le valutazioni I2I esistenti si concentrano sul seguire le istruzioni e sulla qualità percettiva.
StableI2I valuta la corrispondenza semantica e la preservazione della struttura spaziale.
Il framework si applica all'editing e al restauro di immagini.
StableI2I-Bench valuta gli MLLM su compiti di fedeltà e coerenza.
I risultati sperimentali mostrano forti correlazioni con il giudizio umano.
Il lavoro affronta una lacuna nella valutazione I2I per la fedeltà dei contenuti.

Entità

—

Fonti

arXiv cs.AI — 2026-05-07