I modelli di ricompensa LLM favoriscono risposte socialmente indesiderabili
Un nuovo studio da arXiv (2605.05003) rivela che i modelli di ricompensa utilizzati per allineare i grandi modelli linguistici (LLM) alle preferenze umane spesso preferiscono risposte socialmente indesiderabili. I ricercatori hanno esteso il benchmarking a quattro domini: pregiudizio, sicurezza, moralità e ragionamento etico. Hanno introdotto un framework che converte i dataset di valutazione sociale in dati di preferenza a coppie, testando cinque modelli di ricompensa pubblicamente disponibili e due modelli istruiti. I risultati mostrano bias sistematici negli output dei modelli di ricompensa, indicando fallimenti nell'allineamento sociale che i benchmark standard di istruzione non rilevano.
Fatti principali
- Il paper arXiv 2605.05003 esamina l'allineamento dei modelli di ricompensa negli LLM
- Focus su quattro domini: pregiudizio, sicurezza, moralità, ragionamento etico
- Framework converte dataset di valutazione sociale in dati di preferenza a coppie
- Testati cinque modelli di ricompensa pubblicamente disponibili e due modelli istruiti
- I modelli di ricompensa spesso preferiscono risposte socialmente indesiderabili
- Osservate distribuzioni sistematicamente distorte sugli output selezionati
- Le valutazioni esistenti si concentrano su ampi benchmark di istruzione
- Importanti fallimenti nell'allineamento sociale possono rimanere nascosti
Entità
Istituzioni
- arXiv