Auto-spiegazioni dei LLM vs Motivazioni Umane nella Classificazione del Testo

other · 2026-05-22

Uno studio confronta le auto-spiegazioni generate da LLM addestrati con istruzioni con le motivazioni umane per compiti di classificazione del testo. La ricerca valuta la plausibilità e la fedeltà attraverso la classificazione del sentiment, il rilevamento del lavoro forzato e la verifica delle affermazioni. Sono state raccolte annotazioni di motivazioni umane per il dataset Climate-Fever. Sono state incluse traduzioni in danese e italiano del compito di sentiment. Lo studio incorpora anche spiegazioni basate su attribuzione post-hoc per estendere l'analisi.

Fatti principali

I LLM addestrati con istruzioni possono generare auto-spiegazioni senza tecniche complesse di interpretabilità.
Lo studio valuta le auto-spiegazioni come motivazioni di input per la plausibilità agli umani.
Vengono studiati tre compiti di classificazione del testo: classificazione del sentiment, rilevamento del lavoro forzato e verifica delle affermazioni.
Sono incluse traduzioni in danese e italiano del compito di classificazione del sentiment.
Sono state raccolte annotazioni di motivazioni umane per il dataset Climate-Fever di verifica delle affermazioni.
La fedeltà delle motivazioni umane e delle auto-spiegazioni viene valutata rispetto alle previsioni corrette del modello.
Lo studio si estende incorporando spiegazioni basate su attribuzione post-hoc.

Auto-spiegazioni dei LLM vs Motivazioni Umane nella Classificazione del Testo

Fatti principali

Entità

Istituzioni

Fonti