Nuovo framework migliora l'allineamento degli LLM preservando le risposte scelte
Un nuovo framework completo è stato sviluppato da ricercatori per l'analisi dell'ottimizzazione delle preferenze nei modelli linguistici di grandi dimensioni (LLM), affrontando un problema significativo riscontrato nelle tecniche basate sui margini: questi metodi spesso indeboliscono la risposta selezionata mentre cercano di ridurre quella rifiutata. I risultati, pubblicati su arXiv (ID: 2604.18239v3), introducono una decomposizione incentivo-punteggio che dimostra come diversi obiettivi possano condividere le stesse direzioni di aggiornamento locale, differendo solo nei pesi scalari. Questo approccio facilita un'analisi unificata di obiettivi precedentemente distinti. Gli autori evidenziano anche la banda di disaccoppiamento (DB), una condizione verificabile che garantisce che l'addestramento segua la traiettoria prevista: sopprimere il perdente mantenendo il vincitore, potenzialmente dopo una fase iniziale. Questa ricerca offre una strategia ampia per evitare la soppressione involontaria in molteplici obiettivi di ottimizzazione delle preferenze.
Fatti principali
- L'ottimizzazione delle preferenze viene utilizzata per allineare gli LLM con le preferenze umane.
- I metodi basati sui margini spesso sopprimono la risposta scelta quando sopprimono quella rifiutata.
- Lo studio introduce una decomposizione incentivo-punteggio unificata dell'ottimizzazione delle preferenze.
- Obiettivi diversi condividono le stesse direzioni di aggiornamento locale e differiscono solo nei pesi scalari.
- La decomposizione fornisce un framework comune per analizzare obiettivi studiati in contesti separati.
- La banda di disaccoppiamento (DB) è una condizione semplice e verificabile per le dinamiche di addestramento desiderate.
- La DB garantisce che l'addestramento sopprima il perdente preservando il vincitore.
- L'articolo è disponibile su arXiv con ID 2604.18239v3.
Entità
Istituzioni
- arXiv