Algoritmo Genetico Supera l'Ingegneria Manuale dei Prompt per i Modelli di Diffusione
Un nuovo articolo di ricerca introduce un metodo automatizzato per ottimizzare i prompt testuali utilizzati con i modelli di diffusione, affrontando la sensibilità di questi sistemi di IA generativa alla formulazione dei prompt. L'approccio impiega un Algoritmo Genetico per evolvere direttamente i vettori di token utilizzati dai modelli di diffusione basati su CLIP, andando oltre le tecniche convenzionali di riscrittura del testo. L'ottimizzazione mira a una funzione di fitness che bilancia la qualità estetica—misurata dal LAION Aesthetic Predictor V2—con l'allineamento prompt-immagine valutato tramite CLIPScore. Esperimenti condotti su 36 prompt del dataset Parti Prompts (P2) dimostrano che questo metodo supera gli approcci di base, inclusi Promptist e la ricerca casuale, raggiungendo miglioramenti della fitness fino al 23,93%. Il lavoro, documentato nel preprint arXiv 2604.09861v1, è indipendente dal modello e mira a ridurre l'estensivo trial and error manuale attualmente necessario per ottenere risultati soddisfacenti dai modelli di diffusione testo-immagine.
Fatti principali
- L'articolo introduce un Algoritmo Genetico per l'ottimizzazione dei prompt nei modelli di diffusione
- Evolve i vettori di token utilizzati dai modelli di diffusione basati su CLIP
- L'ottimizzazione combina qualità estetica (LAION Aesthetic Predictor V2) e allineamento prompt-immagine (CLIPScore)
- Gli esperimenti hanno utilizzato 36 prompt del dataset Parti Prompts (P2)
- Il metodo ha superato gli approcci di base, inclusi Promptist e la ricerca casuale
- Ha raggiunto un miglioramento della fitness fino al 23,93%
- La ricerca affronta la sensibilità dei modelli di diffusione alla formulazione dei prompt
- L'articolo è disponibile come preprint arXiv 2604.09861v1
Entità
Istituzioni
- arXiv