ARTFEED — Contemporary Art Intelligence

Nuovo Framework Misura l'Affidabilità degli LLM per le Attività di Annotazione nelle Scienze Sociali

ai-technology · 2026-04-22

È stato introdotto un nuovo framework metodologico chiamato Affidabilità Inter-Prompt (IPR) per valutare la stabilità degli output dei grandi modelli linguistici quando utilizzati per l'annotazione nelle scienze sociali computazionali. Il framework valuta quanto coerentemente gli LLM si comportano attraverso prompt semanticamente equivalenti ma linguisticamente variati, traendo ispirazione dalle tradizionali misure di Affidabilità Inter-Valutatori. I ricercatori hanno misurato l'IPR utilizzando il Tasso di Accordo a Coppie e la sua distribuzione per catturare sia la coerenza che il comportamento stocastico nelle risposte del modello. La valutazione ha testato questo framework su due distinte attività di annotazione: il compito interpretativo TREC e il compito ancorato alla conoscenza Politifact. I risultati hanno rivelato una sostanziale variazione stocastica nelle prestazioni degli LLM sui compiti interpretativi, mentre i modelli sono apparsi più stabili quando gestiscono lavori di annotazione basati sulla conoscenza. Lo studio ha inoltre dimostrato che l'utilizzo del voto a maggioranza attraverso più prompt migliora significativamente la riproducibilità e riduce la varianza negli output degli LLM. Questi risultati suggeriscono considerazioni metodologiche per i ricercatori che utilizzano gli LLM nelle applicazioni di etichettatura nelle scienze sociali.

Fatti principali

  • Il framework Affidabilità Inter-Prompt (IPR) valuta la stabilità degli LLM attraverso le variazioni dei prompt
  • Il framework si basa sui concetti di Affidabilità Inter-Valutatori provenienti dai metodi di ricerca tradizionali
  • Misurato utilizzando il Tasso di Accordo a Coppie (PAR) e la sua distribuzione
  • Testato sui compiti di annotazione TREC (interpretativo) e Politifact (ancorato alla conoscenza)
  • Gli LLM mostrano una sostanziale variazione stocastica nei compiti interpretativi
  • Gli LLM appaiono più stabili nei compiti di annotazione basati sulla conoscenza
  • Il voto a maggioranza attraverso i prompt migliora la riproducibilità e riduce la varianza
  • Affronta le preoccupazioni metodologiche sull'affidabilità nelle scienze sociali computazionali

Entità

Istituzioni

  • arXiv

Fonti