Auto-spiegazioni dei LLM vs Motivazioni Umane nella Classificazione del Testo
Uno studio confronta le auto-spiegazioni generate da LLM addestrati con istruzioni con le motivazioni umane per compiti di classificazione del testo. La ricerca valuta la plausibilità e la fedeltà attraverso la classificazione del sentiment, il rilevamento del lavoro forzato e la verifica delle affermazioni. Sono state raccolte annotazioni di motivazioni umane per il dataset Climate-Fever. Sono state incluse traduzioni in danese e italiano del compito di sentiment. Lo studio incorpora anche spiegazioni basate su attribuzione post-hoc per estendere l'analisi.
Fatti principali
- I LLM addestrati con istruzioni possono generare auto-spiegazioni senza tecniche complesse di interpretabilità.
- Lo studio valuta le auto-spiegazioni come motivazioni di input per la plausibilità agli umani.
- Vengono studiati tre compiti di classificazione del testo: classificazione del sentiment, rilevamento del lavoro forzato e verifica delle affermazioni.
- Sono incluse traduzioni in danese e italiano del compito di classificazione del sentiment.
- Sono state raccolte annotazioni di motivazioni umane per il dataset Climate-Fever di verifica delle affermazioni.
- La fedeltà delle motivazioni umane e delle auto-spiegazioni viene valutata rispetto alle previsioni corrette del modello.
- Lo studio si estende incorporando spiegazioni basate su attribuzione post-hoc.
Entità
Istituzioni
- arXiv