ARTFEED — Contemporary Art Intelligence

Indagare le preferenze dipendenti dalla persona nei modelli linguistici di grandi dimensioni

ai-technology · 2026-05-14

Uno studio recente pubblicato su arXiv (2605.13339) esamina come i modelli linguistici di grandi dimensioni (LLM) rappresentano le preferenze attraverso varie persone. I ricercatori hanno utilizzato sonde lineari sulle attivazioni del flusso residuo di Gemma-3-27B e Qwen-3.5-122B per anticipare le selezioni di coppie di compiti. Hanno scoperto un vettore di preferenza vero che riflette costantemente le inclinazioni del modello attraverso diversi prompt e contesti. In particolare, manipolare questo vettore su Gemma-3-27B influenza direttamente le decisioni binarie. È importante notare che questo quadro di preferenze è prevalentemente condiviso tra diverse persone; una sonda progettata per un assistente utile può prevedere e guidare efficacemente le scelte di persone nettamente diverse. Questi risultati implicano che gli LLM potrebbero operare su un sistema di preferenze interne unificato nonostante le apparenti variazioni comportamentali.

Fatti principali

  • Studio pubblicato su arXiv con ID 2605.13339
  • Modelli utilizzati: Gemma-3-27B e Qwen-3.5-122B
  • Sonde lineari addestrate sulle attivazioni del flusso residuo
  • Vettore di preferenza identificato che traccia le scelte attraverso i prompt
  • La navigazione lungo il vettore di preferenza controlla causalmente la scelta binaria su Gemma-3-27B
  • La rappresentazione delle preferenze è condivisa tra le persone
  • La sonda addestrata su un assistente utile prevede le scelte di altre persone
  • La ricerca esplora l'implementazione interna delle preferenze dipendenti dalla persona

Entità

Istituzioni

  • arXiv

Fonti