Indagare le preferenze dipendenti dalla persona nei modelli linguistici di grandi dimensioni
Uno studio recente pubblicato su arXiv (2605.13339) esamina come i modelli linguistici di grandi dimensioni (LLM) rappresentano le preferenze attraverso varie persone. I ricercatori hanno utilizzato sonde lineari sulle attivazioni del flusso residuo di Gemma-3-27B e Qwen-3.5-122B per anticipare le selezioni di coppie di compiti. Hanno scoperto un vettore di preferenza vero che riflette costantemente le inclinazioni del modello attraverso diversi prompt e contesti. In particolare, manipolare questo vettore su Gemma-3-27B influenza direttamente le decisioni binarie. È importante notare che questo quadro di preferenze è prevalentemente condiviso tra diverse persone; una sonda progettata per un assistente utile può prevedere e guidare efficacemente le scelte di persone nettamente diverse. Questi risultati implicano che gli LLM potrebbero operare su un sistema di preferenze interne unificato nonostante le apparenti variazioni comportamentali.
Fatti principali
- Studio pubblicato su arXiv con ID 2605.13339
- Modelli utilizzati: Gemma-3-27B e Qwen-3.5-122B
- Sonde lineari addestrate sulle attivazioni del flusso residuo
- Vettore di preferenza identificato che traccia le scelte attraverso i prompt
- La navigazione lungo il vettore di preferenza controlla causalmente la scelta binaria su Gemma-3-27B
- La rappresentazione delle preferenze è condivisa tra le persone
- La sonda addestrata su un assistente utile prevede le scelte di altre persone
- La ricerca esplora l'implementazione interna delle preferenze dipendenti dalla persona
Entità
Istituzioni
- arXiv