Indagare le preferenze dipendenti dalla persona nei modelli linguistici di grandi dimensioni

ai-technology · 2026-05-14

Uno studio recente pubblicato su arXiv (2605.13339) esamina come i modelli linguistici di grandi dimensioni (LLM) rappresentano le preferenze attraverso varie persone. I ricercatori hanno utilizzato sonde lineari sulle attivazioni del flusso residuo di Gemma-3-27B e Qwen-3.5-122B per anticipare le selezioni di coppie di compiti. Hanno scoperto un vettore di preferenza vero che riflette costantemente le inclinazioni del modello attraverso diversi prompt e contesti. In particolare, manipolare questo vettore su Gemma-3-27B influenza direttamente le decisioni binarie. È importante notare che questo quadro di preferenze è prevalentemente condiviso tra diverse persone; una sonda progettata per un assistente utile può prevedere e guidare efficacemente le scelte di persone nettamente diverse. Questi risultati implicano che gli LLM potrebbero operare su un sistema di preferenze interne unificato nonostante le apparenti variazioni comportamentali.

Fatti principali

Studio pubblicato su arXiv con ID 2605.13339
Modelli utilizzati: Gemma-3-27B e Qwen-3.5-122B
Sonde lineari addestrate sulle attivazioni del flusso residuo
Vettore di preferenza identificato che traccia le scelte attraverso i prompt
La navigazione lungo il vettore di preferenza controlla causalmente la scelta binaria su Gemma-3-27B
La rappresentazione delle preferenze è condivisa tra le persone
La sonda addestrata su un assistente utile prevede le scelte di altre persone
La ricerca esplora l'implementazione interna delle preferenze dipendenti dalla persona

Indagare le preferenze dipendenti dalla persona nei modelli linguistici di grandi dimensioni

Fatti principali

Entità

Istituzioni

Fonti