ARTFEED — Contemporary Art Intelligence

La Scoperta di Circuiti Basata sui Dati Sfida le Ipotesi nell'Interpretabilità dei Modelli Linguistici

publication · 2026-05-12

Una recente indagine valuta rigorosamente le ipotesi fondamentali alla base delle tecniche di scoperta di circuiti per i modelli linguistici (LM). L'obiettivo della scoperta di circuiti è identificare e interpretare sottografi computazionali che gestiscono compiti specifici. Gli approcci attuali si basano su ipotesi: stabiliscono un compito utilizzando un dataset e impiegano un algoritmo per identificare un circuito. Ciò si fonda sulla premessa che il LM operi con un singolo circuito per compito e che il dataset rappresenti adeguatamente il compito. I ricercatori hanno esaminato queste ipotesi su quattro compiti precedentemente analizzati. Hanno scoperto che lievi variazioni nei dataset, pur mantenendo la semantica del compito, producevano circuiti con sovrapposizione minima di archi e bassa affidabilità tra dataset. Anche quando testati su un dataset combinato con due compiti separati, i metodi esistenti identificavano ancora un singolo circuito, evidenziando la loro inadeguatezza nell'affrontare la molteplicità dei compiti. I risultati indicano che la scoperta di circuiti dovrebbe adottare strategie basate sui dati che considerino più circuiti per ogni compito e riconoscano i bias dei dataset.

Fatti principali

  • La scoperta di circuiti mira a spiegare il comportamento dei LM localizzando sottografi computazionali.
  • I metodi esistenti assumono un singolo circuito per compito e l'adeguatezza del dataset.
  • Sono stati testati quattro compiti precedentemente studiati.
  • Minime variazioni nei dataset producono circuiti con bassa sovrapposizione di archi.
  • La fedeltà tra dataset è bassa in presenza di variazioni nei dataset.
  • Dataset misti con due compiti distinti producono circuiti con fedeltà incrociata quasi nulla.
  • I metodi esistenti producono ancora un singolo circuito per compiti misti.
  • Lo studio richiede metodi di scoperta di circuiti basati sui dati.

Entità

Istituzioni

  • arXiv

Fonti