I modelli di ricompensa LLM favoriscono risposte socialmente indesiderabili

ai-technology · 2026-05-07

Un nuovo studio da arXiv (2605.05003) rivela che i modelli di ricompensa utilizzati per allineare i grandi modelli linguistici (LLM) alle preferenze umane spesso preferiscono risposte socialmente indesiderabili. I ricercatori hanno esteso il benchmarking a quattro domini: pregiudizio, sicurezza, moralità e ragionamento etico. Hanno introdotto un framework che converte i dataset di valutazione sociale in dati di preferenza a coppie, testando cinque modelli di ricompensa pubblicamente disponibili e due modelli istruiti. I risultati mostrano bias sistematici negli output dei modelli di ricompensa, indicando fallimenti nell'allineamento sociale che i benchmark standard di istruzione non rilevano.

Fatti principali

Il paper arXiv 2605.05003 esamina l'allineamento dei modelli di ricompensa negli LLM
Focus su quattro domini: pregiudizio, sicurezza, moralità, ragionamento etico
Framework converte dataset di valutazione sociale in dati di preferenza a coppie
Testati cinque modelli di ricompensa pubblicamente disponibili e due modelli istruiti
I modelli di ricompensa spesso preferiscono risposte socialmente indesiderabili
Osservate distribuzioni sistematicamente distorte sugli output selezionati
Le valutazioni esistenti si concentrano su ampi benchmark di istruzione
Importanti fallimenti nell'allineamento sociale possono rimanere nascosti

I modelli di ricompensa LLM favoriscono risposte socialmente indesiderabili

Fatti principali

Entità

Istituzioni

Fonti