I protocolli di elicitazione influenzano il divario tra preferenze dichiarate e rivelate nell'IA

ai-technology · 2026-05-14

Una recente indagine pubblicata su arXiv esplora l'influenza dei protocolli di elicitazione sul divario tra preferenze dichiarate e rivelate (SvR) nei modelli linguistici (LM). Il divario SvR evidenzia la discrepanza tra i valori espressi dai LM e le loro scelte contestuali. Le valutazioni attuali utilizzano prevalentemente prompt a scelta forzata binaria, che confondono il confine tra preferenze reali e artefatti del protocollo. Questo studio valuta 24 LM e scopre che consentire neutralità e astensione nell'elicitazione delle preferenze dichiarate migliora la correlazione di rango di Spearman tra le preferenze espresse e quelle rivelate attraverso scelte forzate. Al contrario, consentire l'astensione nelle preferenze rivelate produce una correlazione vicina allo zero o negativa a causa di tassi di neutralità elevati. Inoltre, l'uso del system prompt steering con preferenze dichiarate durante l'elicitazione delle preferenze rivelate non migliora costantemente la correlazione SvR.

Fatti principali

Lo studio esamina il divario tra preferenze dichiarate e rivelate in 24 modelli linguistici
Il divario SvR è la discrepanza tra i valori sostenuti e le scelte contestuali
I prompt a scelta forzata binaria confondono le preferenze con artefatti del protocollo
Consentire neutralità e astensione nelle preferenze dichiarate migliora il ρ di Spearman
Consentire l'astensione nelle preferenze rivelate riduce ρ a quasi zero o negativo
Il system prompt steering non migliora in modo affidabile la correlazione SvR
Ricerca pubblicata su arXiv con ID 2601.21975
Focus sul comportamento dei modelli linguistici di IA

I protocolli di elicitazione influenzano il divario tra preferenze dichiarate e rivelate nell'IA

Fatti principali

Entità

Istituzioni

Fonti