ZeNO: Ottimizzazione del Rumore Senza Gradienti per l'Allineamento di Modelli Generativi
Un nuovo metodo chiamato ZeNO (Zeroth-order Noise Optimization) consente l'allineamento della ricompensa nei modelli generativi senza retropropagazione. Sviluppato per modelli di diffusione e flusso, ZeNO tratta l'ottimizzazione del rumore come un problema di controllo path-integral risolvibile tramite valutazioni della ricompensa di ordine zero. Utilizzando un processo di riferimento Ornstein-Uhlenbeck, l'aggiornamento mira implicitamente a una distribuzione inclinata verso la ricompensa tramite dinamica di Langevin. Il framework supporta il ridimensionamento al momento dell'inferenza e funziona bene su diversi generatori e funzioni di ricompensa, inclusa la generazione di strutture proteiche dove la retropropagazione è impraticabile. L'articolo è disponibile su arXiv con riferimento 2605.11347.
Fatti principali
- ZeNO è un framework senza gradienti per l'allineamento della ricompensa nei modelli generativi.
- Formula l'ottimizzazione del rumore come un problema di controllo path-integral.
- Il metodo utilizza valutazioni della ricompensa di ordine zero senza retropropagazione.
- Istanzia un processo di riferimento Ornstein-Uhlenbeck.
- L'aggiornamento si collega alla dinamica di Langevin che mira a una distribuzione inclinata verso la ricompensa.
- ZeNO consente un efficace ridimensionamento al momento dell'inferenza.
- Mostra prestazioni elevate nella generazione di strutture proteiche.
- L'articolo è pubblicato su arXiv con ID 2605.11347.
Entità
Istituzioni
- arXiv