ARTFEED — Contemporary Art Intelligence

Auto-spiegazioni dei LLM vs Motivazioni Umane nella Classificazione del Testo

other · 2026-05-22

Uno studio confronta le auto-spiegazioni generate da LLM addestrati con istruzioni con le motivazioni umane per compiti di classificazione del testo. La ricerca valuta la plausibilità e la fedeltà attraverso la classificazione del sentiment, il rilevamento del lavoro forzato e la verifica delle affermazioni. Sono state raccolte annotazioni di motivazioni umane per il dataset Climate-Fever. Sono state incluse traduzioni in danese e italiano del compito di sentiment. Lo studio incorpora anche spiegazioni basate su attribuzione post-hoc per estendere l'analisi.

Fatti principali

  • I LLM addestrati con istruzioni possono generare auto-spiegazioni senza tecniche complesse di interpretabilità.
  • Lo studio valuta le auto-spiegazioni come motivazioni di input per la plausibilità agli umani.
  • Vengono studiati tre compiti di classificazione del testo: classificazione del sentiment, rilevamento del lavoro forzato e verifica delle affermazioni.
  • Sono incluse traduzioni in danese e italiano del compito di classificazione del sentiment.
  • Sono state raccolte annotazioni di motivazioni umane per il dataset Climate-Fever di verifica delle affermazioni.
  • La fedeltà delle motivazioni umane e delle auto-spiegazioni viene valutata rispetto alle previsioni corrette del modello.
  • Lo studio si estende incorporando spiegazioni basate su attribuzione post-hoc.

Entità

Istituzioni

  • arXiv

Fonti