Inversione di Autorità nei LLM: Fiducia nelle Affermazioni degli Utenti rispetto ai Dati Sensoriali
Uno studio recente pubblicato su arXiv evidenzia un fenomeno noto come Inversione di Autorità nei modelli linguistici di grandi dimensioni (LLM) quando integrano input diversi in sistemi diffusi. I ricercatori hanno scoperto che i LLM tendono a favorire affermazioni in linguaggio naturale rispetto a dati sensoriali numerici contrastanti, a causa del modo in cui l'autorità viene assegnata in base al formato. Questo bias sorge perché le informazioni numeriche non si allineano con i percorsi di risposta rilevanti del modello, permettendo alle affermazioni degli utenti di prevalere sui dati sensoriali. Per affrontare questo problema, gli autori hanno proposto un quadro geometrico per l'integrazione del contesto, insieme a due nuove metriche di audit: il Rapporto di Integrazione del Contesto (CIR) e l'Indice di Allineamento dell'Autorità (AAI). Hanno anche introdotto la Calibrazione Geometrica dell'Autorità (GAC) come intervento durante l'inferenza. Questi risultati evidenziano significativi problemi di affidabilità per applicazioni come sistemi autonomi e IoT, dove la percezione fisica dovrebbe avere la precedenza.
Fatti principali
- I LLM mostrano Inversione di Autorità quando i dati sensoriali e le affermazioni degli utenti sono in conflitto.
- I dati sensoriali numerici non si integrano nelle direzioni del modello rilevanti per la risposta.
- Le affermazioni in linguaggio naturale dominano le decisioni finali rispetto agli input sensoriali.
- Introdotte due metriche di audit: Rapporto di Integrazione del Contesto (CIR) e Indice di Allineamento dell'Autorità (AAI).
- Proposta la Calibrazione Geometrica dell'Autorità (GAC) come mitigazione durante l'inferenza.
- Studio pubblicato su arXiv con ID 2605.23938.
- La ricerca si concentra sui sistemi ubiquitari mediati da LLM.
- L'allocazione dell'autorità è dipendente dal formato e implicita nelle rappresentazioni apprese.
Entità
Istituzioni
- arXiv