ARTFEED — Contemporary Art Intelligence

Nuovo Metodo Decompone l'Allineamento degli LLM per Compiti Multi-Stakeholder

ai-technology · 2026-05-27

I ricercatori propongono DecompR, un metodo per allineare i modelli linguistici di grandi dimensioni (LLM) in scenari multi-stakeholder in cui gli utenti hanno preferenze contrastanti. I giudici LLM olistici tradizionali confondono la stima dell'utilità e l'aggregazione, introducendo pesi impliciti instabili. DecompR fissa pesi calibrati controfattuali dalla struttura della query prima della valutazione dei candidati e stima le utilità per ruolo in modo indipendente, rimuovendo la deriva dei pesi dipendente dal candidato e riducendo il rumore di stima. Gli esperimenti mostrano che il rumore di ponderazione può creare grandi spostamenti di punteggio quando la soddisfazione degli stakeholder è dispersa, e questi spostamenti aumentano con il numero di stakeholder. Il lavoro è pubblicato su arXiv sotto informatica e intelligenza artificiale.

Fatti principali

  • DecompR scompone la stima dell'utilità dall'aggregazione nell'allineamento degli LLM.
  • I giudici LLM olistici confondono stima e aggregazione, causando pesi instabili.
  • Il rumore di ponderazione crea grandi spostamenti di punteggio quando la soddisfazione degli stakeholder è dispersa.
  • Gli spostamenti di punteggio aumentano con il numero di stakeholder.
  • DecompR utilizza pesi calibrati controfattuali fissati dalla struttura della query.
  • Le utilità per ruolo sono stimate indipendentemente in DecompR.
  • Il metodo rimuove la deriva dei pesi dipendente dal candidato.
  • L'articolo è disponibile su arXiv sotto informatica e intelligenza artificiale.

Entità

Istituzioni

  • arXiv

Fonti