La Scoperta di Circuiti Basata sui Dati Sfida le Ipotesi nell'Interpretabilità dei Modelli Linguistici

publication · 2026-05-12

Una recente indagine valuta rigorosamente le ipotesi fondamentali alla base delle tecniche di scoperta di circuiti per i modelli linguistici (LM). L'obiettivo della scoperta di circuiti è identificare e interpretare sottografi computazionali che gestiscono compiti specifici. Gli approcci attuali si basano su ipotesi: stabiliscono un compito utilizzando un dataset e impiegano un algoritmo per identificare un circuito. Ciò si fonda sulla premessa che il LM operi con un singolo circuito per compito e che il dataset rappresenti adeguatamente il compito. I ricercatori hanno esaminato queste ipotesi su quattro compiti precedentemente analizzati. Hanno scoperto che lievi variazioni nei dataset, pur mantenendo la semantica del compito, producevano circuiti con sovrapposizione minima di archi e bassa affidabilità tra dataset. Anche quando testati su un dataset combinato con due compiti separati, i metodi esistenti identificavano ancora un singolo circuito, evidenziando la loro inadeguatezza nell'affrontare la molteplicità dei compiti. I risultati indicano che la scoperta di circuiti dovrebbe adottare strategie basate sui dati che considerino più circuiti per ogni compito e riconoscano i bias dei dataset.

Fatti principali

La scoperta di circuiti mira a spiegare il comportamento dei LM localizzando sottografi computazionali.
I metodi esistenti assumono un singolo circuito per compito e l'adeguatezza del dataset.
Sono stati testati quattro compiti precedentemente studiati.
Minime variazioni nei dataset producono circuiti con bassa sovrapposizione di archi.
La fedeltà tra dataset è bassa in presenza di variazioni nei dataset.
Dataset misti con due compiti distinti producono circuiti con fedeltà incrociata quasi nulla.
I metodi esistenti producono ancora un singolo circuito per compiti misti.
Lo studio richiede metodi di scoperta di circuiti basati sui dati.

La Scoperta di Circuiti Basata sui Dati Sfida le Ipotesi nell'Interpretabilità dei Modelli Linguistici

Fatti principali

Entità

Istituzioni

Fonti