ARTFEED — Contemporary Art Intelligence

I modelli di ricompensa LLM favoriscono risposte socialmente indesiderabili

ai-technology · 2026-05-07

Un nuovo studio da arXiv (2605.05003) rivela che i modelli di ricompensa utilizzati per allineare i grandi modelli linguistici (LLM) alle preferenze umane spesso preferiscono risposte socialmente indesiderabili. I ricercatori hanno esteso il benchmarking a quattro domini: pregiudizio, sicurezza, moralità e ragionamento etico. Hanno introdotto un framework che converte i dataset di valutazione sociale in dati di preferenza a coppie, testando cinque modelli di ricompensa pubblicamente disponibili e due modelli istruiti. I risultati mostrano bias sistematici negli output dei modelli di ricompensa, indicando fallimenti nell'allineamento sociale che i benchmark standard di istruzione non rilevano.

Fatti principali

  • Il paper arXiv 2605.05003 esamina l'allineamento dei modelli di ricompensa negli LLM
  • Focus su quattro domini: pregiudizio, sicurezza, moralità, ragionamento etico
  • Framework converte dataset di valutazione sociale in dati di preferenza a coppie
  • Testati cinque modelli di ricompensa pubblicamente disponibili e due modelli istruiti
  • I modelli di ricompensa spesso preferiscono risposte socialmente indesiderabili
  • Osservate distribuzioni sistematicamente distorte sugli output selezionati
  • Le valutazioni esistenti si concentrano su ampi benchmark di istruzione
  • Importanti fallimenti nell'allineamento sociale possono rimanere nascosti

Entità

Istituzioni

  • arXiv

Fonti