La Scoperta di Circuiti Basata sui Dati Sfida le Ipotesi nell'Interpretabilità dei Modelli Linguistici
Una recente indagine valuta rigorosamente le ipotesi fondamentali alla base delle tecniche di scoperta di circuiti per i modelli linguistici (LM). L'obiettivo della scoperta di circuiti è identificare e interpretare sottografi computazionali che gestiscono compiti specifici. Gli approcci attuali si basano su ipotesi: stabiliscono un compito utilizzando un dataset e impiegano un algoritmo per identificare un circuito. Ciò si fonda sulla premessa che il LM operi con un singolo circuito per compito e che il dataset rappresenti adeguatamente il compito. I ricercatori hanno esaminato queste ipotesi su quattro compiti precedentemente analizzati. Hanno scoperto che lievi variazioni nei dataset, pur mantenendo la semantica del compito, producevano circuiti con sovrapposizione minima di archi e bassa affidabilità tra dataset. Anche quando testati su un dataset combinato con due compiti separati, i metodi esistenti identificavano ancora un singolo circuito, evidenziando la loro inadeguatezza nell'affrontare la molteplicità dei compiti. I risultati indicano che la scoperta di circuiti dovrebbe adottare strategie basate sui dati che considerino più circuiti per ogni compito e riconoscano i bias dei dataset.
Fatti principali
- La scoperta di circuiti mira a spiegare il comportamento dei LM localizzando sottografi computazionali.
- I metodi esistenti assumono un singolo circuito per compito e l'adeguatezza del dataset.
- Sono stati testati quattro compiti precedentemente studiati.
- Minime variazioni nei dataset producono circuiti con bassa sovrapposizione di archi.
- La fedeltà tra dataset è bassa in presenza di variazioni nei dataset.
- Dataset misti con due compiti distinti producono circuiti con fedeltà incrociata quasi nulla.
- I metodi esistenti producono ancora un singolo circuito per compiti misti.
- Lo studio richiede metodi di scoperta di circuiti basati sui dati.
Entità
Istituzioni
- arXiv