DiNa-LRM: Modello di Ricompensa Latente Nativo per la Diffusione per l'Ottimizzazione delle Preferenze
I ricercatori propongono DiNa-LRM, un modello di ricompensa latente nativo per la diffusione che formula direttamente l'apprendimento delle preferenze sugli stati di diffusione rumorosi, evitando la discrepanza di dominio delle ricompense nello spazio dei pixel provenienti dai modelli visione-linguaggio (VLM). Il metodo utilizza una verosimiglianza di Thurstone calibrata sul rumore con incertezza dipendente dal rumore di diffusione, sfruttando un backbone di diffusione latente preaddestrato con una testa di ricompensa condizionata al passo temporale. Supporta l'ensemble di rumore al momento dell'inferenza per il scaling a test-time. Questo approccio affronta i problemi di costo computazionale e discrepanza di dominio delle ricompense basate su VLM nell'ottimizzazione dei modelli di diffusione e di flusso.
Fatti principali
- DiNa-LRM è un modello di ricompensa latente nativo per la diffusione.
- Formula l'apprendimento delle preferenze direttamente sugli stati di diffusione rumorosi.
- Utilizza una verosimiglianza di Thurstone calibrata sul rumore con incertezza dipendente dal rumore di diffusione.
- Sfrutta un backbone di diffusione latente preaddestrato con una testa di ricompensa condizionata al passo temporale.
- Supporta l'ensemble di rumore al momento dell'inferenza.
- Evita la discrepanza di dominio delle ricompense nello spazio dei pixel provenienti dai VLM.
- Riduce il costo computazionale e di memoria rispetto alle ricompense basate su VLM.
- Pubblicato su arXiv con ID 2602.11146.
Entità
Istituzioni
- arXiv