Circuiti Certificati: Stabilità Dimostrabile per l'Interpretabilità delle Reti Neurali
Il nuovo framework, Circuiti Certificati, offre garanzie di stabilità verificabili per l'interpretabilità meccanicistica delle reti neurali. Gli attuali metodi di scoperta dei circuiti sono fragili, poiché dipendono fortemente dal dataset di concetti selezionato e spesso faticano a generalizzare oltre i dati di addestramento. Circuiti Certificati migliora qualsiasi tecnica di scoperta black-box utilizzando un sottocampionamento casuale dei dati, assicurando che le decisioni riguardanti gli elementi del circuito—come neuroni o archi nel grafo del modello—rimangano coerenti nonostante piccole alterazioni al dataset di concetti. Questo approccio evita componenti instabili, risultando in circuiti più affidabili. I risultati sono dettagliati in una pubblicazione su arXiv (2602.22968) e mirano a migliorare i processi di debug, audit e implementazione delle reti neurali.
Fatti principali
- 1. Circuiti Certificati fornisce garanzie di stabilità dimostrabili per la scoperta dei circuiti.
- 2. I metodi esistenti di scoperta dei circuiti sono fragili e dipendenti dal dataset.
- 3. Il framework utilizza il sottocampionamento casuale dei dati.
- 4. Certifica l'invarianza a perturbazioni limitate in distanza di edit.
- 5. I componenti instabili vengono esclusi.
- 6. La ricerca è pubblicata su arXiv con ID 2602.22968.
- 7. L'interpretabilità meccanicistica mira a identificare sottoreti minime responsabili di comportamenti specifici.
- 8. Il lavoro affronta i fallimenti di trasferimento fuori distribuzione.
Entità
Istituzioni
- arXiv