ARTFEED — Contemporary Art Intelligence

I protocolli di elicitazione influenzano il divario tra preferenze dichiarate e rivelate nell'IA

ai-technology · 2026-05-14

Una recente indagine pubblicata su arXiv esplora l'influenza dei protocolli di elicitazione sul divario tra preferenze dichiarate e rivelate (SvR) nei modelli linguistici (LM). Il divario SvR evidenzia la discrepanza tra i valori espressi dai LM e le loro scelte contestuali. Le valutazioni attuali utilizzano prevalentemente prompt a scelta forzata binaria, che confondono il confine tra preferenze reali e artefatti del protocollo. Questo studio valuta 24 LM e scopre che consentire neutralità e astensione nell'elicitazione delle preferenze dichiarate migliora la correlazione di rango di Spearman tra le preferenze espresse e quelle rivelate attraverso scelte forzate. Al contrario, consentire l'astensione nelle preferenze rivelate produce una correlazione vicina allo zero o negativa a causa di tassi di neutralità elevati. Inoltre, l'uso del system prompt steering con preferenze dichiarate durante l'elicitazione delle preferenze rivelate non migliora costantemente la correlazione SvR.

Fatti principali

  • Lo studio esamina il divario tra preferenze dichiarate e rivelate in 24 modelli linguistici
  • Il divario SvR è la discrepanza tra i valori sostenuti e le scelte contestuali
  • I prompt a scelta forzata binaria confondono le preferenze con artefatti del protocollo
  • Consentire neutralità e astensione nelle preferenze dichiarate migliora il ρ di Spearman
  • Consentire l'astensione nelle preferenze rivelate riduce ρ a quasi zero o negativo
  • Il system prompt steering non migliora in modo affidabile la correlazione SvR
  • Ricerca pubblicata su arXiv con ID 2601.21975
  • Focus sul comportamento dei modelli linguistici di IA

Entità

Istituzioni

  • arXiv

Fonti