Framework di Reverse-Engineering Cognitivo Decodifica la Gelosia nei LLM
Un nuovo studio ha presentato un framework chiamato Reverse-Engineering Cognitivo, che si basa sull'Ingegneria della Rappresentazione (RepE) per esplorare come i Grandi Modelli Linguistici (LLM) comprendono emozioni complesse, in particolare la gelosia da confronto sociale. Questo approccio combina teoria dell'appraisal, ortogonalizzazione del sottospazio, ponderazione basata sulla regressione e steering causale bidirezionale per individuare e valutare due fattori psicologici legati alla gelosia: la Superiorità della Persona di Confronto e la Rilevanza Autodefinizionale del Dominio. L'analisi di otto LLM dei gruppi Llama, Qwen e Gemma mostra che questi modelli incorporano naturalmente tali aspetti cognitivi, influenzando le loro valutazioni. Questa ricerca colma una lacuna nell'interpretazione di questi modelli, spesso considerati scatole nere, trascurando le sottigliezze di esperienze emotive complesse.
Fatti principali
- Il framework si basa sull'Ingegneria della Rappresentazione (RepE)
- Analizza la gelosia da confronto sociale nei LLM
- Utilizza teoria dell'appraisal, ortogonalizzazione del sottospazio, ponderazione basata sulla regressione e steering causale bidirezionale
- Isola due antecedenti: Superiorità della Persona di Confronto e Rilevanza Autodefinizionale del Dominio
- Testato su otto LLM delle famiglie Llama, Qwen e Gemma
- I modelli codificano nativamente questi costrutti cognitivi
- Colma una lacuna nell'interpretabilità delle emozioni complesse
- Pubblicato su arXiv con ID 2604.14593
Entità
Istituzioni
- arXiv