Nuovo Metodo Decompone l'Allineamento degli LLM per Compiti Multi-Stakeholder

ai-technology · 2026-05-27

I ricercatori propongono DecompR, un metodo per allineare i modelli linguistici di grandi dimensioni (LLM) in scenari multi-stakeholder in cui gli utenti hanno preferenze contrastanti. I giudici LLM olistici tradizionali confondono la stima dell'utilità e l'aggregazione, introducendo pesi impliciti instabili. DecompR fissa pesi calibrati controfattuali dalla struttura della query prima della valutazione dei candidati e stima le utilità per ruolo in modo indipendente, rimuovendo la deriva dei pesi dipendente dal candidato e riducendo il rumore di stima. Gli esperimenti mostrano che il rumore di ponderazione può creare grandi spostamenti di punteggio quando la soddisfazione degli stakeholder è dispersa, e questi spostamenti aumentano con il numero di stakeholder. Il lavoro è pubblicato su arXiv sotto informatica e intelligenza artificiale.

Fatti principali

DecompR scompone la stima dell'utilità dall'aggregazione nell'allineamento degli LLM.
I giudici LLM olistici confondono stima e aggregazione, causando pesi instabili.
Il rumore di ponderazione crea grandi spostamenti di punteggio quando la soddisfazione degli stakeholder è dispersa.
Gli spostamenti di punteggio aumentano con il numero di stakeholder.
DecompR utilizza pesi calibrati controfattuali fissati dalla struttura della query.
Le utilità per ruolo sono stimate indipendentemente in DecompR.
Il metodo rimuove la deriva dei pesi dipendente dal candidato.
L'articolo è disponibile su arXiv sotto informatica e intelligenza artificiale.

Nuovo Metodo Decompone l'Allineamento degli LLM per Compiti Multi-Stakeholder

Fatti principali

Entità

Istituzioni

Fonti