Allineamento Multi-Obiettivo nei LLM: Espansione Dimensionale delle Preferenze
Un nuovo articolo su arXiv (2605.11679) propone un metodo per superare il compromesso tra sicurezza e utilità nell'allineamento dei modelli linguistici di grandi dimensioni. Gli autori sostengono che gli approcci attuali, come la selezione dei dati e la fusione dei parametri, impongono solo compromessi lungo una frontiera di Pareto fissa. Aumentando il numero di rollout e analizzando ricompense multidimensionali, scoprono che il conflitto deriva da restrizioni intrinseche al prompt. Il lavoro introduce l'espansione dimensionale delle preferenze per rompere il conflitto a somma zero tra utilità e innocuità.
Fatti principali
- Articolo arXiv 2605.11679
- Affronta il limite sicurezza-utilità nell'allineamento dei LLM
- L'allineamento multi-obiettivo implica un conflitto a somma zero
- Lavori precedenti usano selezione dei dati, fusione dei parametri, bilanciamento algoritmico
- Nuovo approccio: espansione dimensionale delle preferenze
- Aumento dei rollout e analisi di ricompense multidimensionali
- Il conflitto deriva da restrizioni intrinseche al prompt
- Obiettivo: rompere i compromessi sulla frontiera di Pareto fissa
Entità
Istituzioni
- arXiv