Studio comparativo valuta le tecniche di spiegabilità per i modelli linguistici di grandi dimensioni

ai-technology · 2026-04-20

È stata condotta un'analisi comparativa di tre metodi di spiegabilità per i modelli linguistici di grandi dimensioni, concentrandosi sulla loro applicazione pratica piuttosto che sul proporre nuove tecniche. Lo studio ha esaminato Integrated Gradients, Attention Rollout e SHAP utilizzando un modello DistilBERT fine-tuned per compiti di classificazione del sentimento SST-2. I metodi di attribuzione basati sui gradienti hanno dimostrato una stabilità superiore e hanno prodotto spiegazioni più intuitive secondo i risultati. Gli approcci basati sull'attenzione si sono rivelati computazionalmente efficienti ma meno allineati con le caratteristiche rilevanti per le previsioni. Le tecniche agnostiche del modello offrivano flessibilità ma comportavano costi computazionali più elevati e una maggiore variabilità nei risultati. La ricerca ha sottolineato l'importanza della trasparenza nei processi decisionali degli LLM per costruire fiducia, eseguire debug e implementare in contesti reali. Questo lavoro è stato documentato nella preprint arXiv 2604.15371v1 con un tipo di annuncio incrociato. Lo studio ha mantenuto una configurazione sperimentale coerente e riproducibile durante tutta la valutazione.

Fatti principali

Lo studio confronta tre tecniche di spiegabilità per i modelli linguistici di grandi dimensioni
Metodi valutati: Integrated Gradients, Attention Rollout, SHAP
Utilizzato modello DistilBERT fine-tuned per la classificazione del sentimento SST-2
L'attribuzione basata sui gradienti ha fornito le spiegazioni più stabili e intuitive
I metodi basati sull'attenzione erano computazionalmente efficienti ma meno allineati con le caratteristiche di previsione
Gli approcci agnostici del modello offrivano flessibilità con costi computazionali più elevati
L'attenzione era sulla valutazione pratica piuttosto che sul proporre nuovi metodi
La ricerca affronta le sfide della trasparenza per la fiducia e l'implementazione degli LLM

Entità

—

Fonti

arXiv cs.AI — 2026-04-20