AutoRubric-T2I: Apprendimento Automatico di Rubriche per l'Allineamento Text-to-Image
I ricercatori propongono AutoRubric-T2I, un framework che sintetizza e seleziona automaticamente rubriche esplicite per guidare i giudici dei modelli Visione-Linguaggio (VLM) nella valutazione dei modelli di generazione Text-to-Image (T2I). Gli attuali modelli di ricompensa sono costosi, opachi e addestrati su grandi corpora di preferenze umane. AutoRubric-T2I genera rubriche candidate a partire da coppie di preferenze e utilizza un giudice VLM per valutare le immagini, puntando a un allineamento robusto e interpretabile con le preferenze umane.
Fatti principali
- AutoRubric-T2I è il primo framework di apprendimento di rubriche nel campo T2I
- Sintetizza tracce di ragionamento da coppie di preferenze in rubriche candidate
- Utilizza un giudice VLM per valutare coppie di immagini
- Mira a ridurre i costi e l'opacità degli attuali modelli di ricompensa
- Pubblicato su arXiv con ID 2605.17602
- Il tipo di annuncio è nuovo
- Si concentra sull'allineamento dei modelli T2I con le preferenze umane
- Affronta le limitazioni dei modelli di preferenza Bradley-Terry
Entità
Istituzioni
- arXiv