Framework di Adattamento Aggiunto per il Fine-Tuning di Modelli di Flusso
Un nuovo framework deterministico di adattamento aggiunto affronta l'allineamento delle preferenze umane nei modelli generativi basati su flusso, trattandolo come un problema di controllo ottimo relativo ai campi di velocità. Questa tecnica regredisce direttamente il controllo verso un obiettivo influenzato dai gradienti di valore sotto la politica esistente, ottenendo un obiettivo di addestramento semplice e stabile. Utilizzando un metodo aggiunto troncato, l'attenzione è concentrata sulla parte finale della traiettoria, dove sono concentrati i segnali rilevanti per le ricompense, portando a una significativa efficienza computazionale mantenendo la qualità dell'allineamento. Questo framework si estende oltre la tipica regolarizzazione basata su KL, consentendo compromessi adattabili tra la forza dell'allineamento e la preservazione delle distribuzioni. Esperimenti condotti su SiT-XL/2 e FLUX.2-Klein-4B rivelano miglioramenti consistenti in vari metriche di allineamento, nonché una maggiore diversità e preservazione delle modalità.
Fatti principali
- Propone un framework deterministico di adattamento aggiunto per modelli generativi basati su flusso
- Formula l'allineamento delle preferenze umane come controllo ottimo sui campi di velocità
- Introduce uno schema aggiunto troncato per risparmi computazionali
- Generalizza oltre la regolarizzazione basata su KL
- Testato sui modelli SiT-XL/2 e FLUX.2-Klein-4B
- Ottiene guadagni consistenti in tutte le metriche di allineamento
- Migliora la diversità e la preservazione delle modalità
Entità
—