MechaRule: Fondare l'Estrazione di Regole da LLM sui Circuiti Neurali
I ricercatori propongono MechaRule, una pipeline che estrae regole simboliche da grandi modelli linguistici ancorandole a neuroni specifici. Il metodo identifica neuroni 'agonisti' la cui neutralizzazione dell'attivazione interrompe i comportamenti legati alle regole. Sfrutta l'osservazione che gli effetti agonisti sparsi sono approssimativamente monotoni e saturanti, consentendo una localizzazione efficiente senza ipotesi predefinite. L'approccio collega l'estrazione globale di regole e l'interpretabilità meccanicistica.
Fatti principali
- MechaRule è una pipeline per l'estrazione di regole da LLM basata sui circuiti neurali.
- Identifica neuroni sparsi chiamati agonisti la cui neutralizzazione interrompe i comportamenti legati alle regole.
- Il metodo si basa su osservazioni empiriche di effetti agonisti monotoni e saturanti.
- Evita ipotesi predefinite e interventi costosi a livello di neuroni.
- L'approccio combina l'estrazione globale di regole con l'interpretabilità meccanicistica.
- La ricerca è pubblicata su arXiv con ID 2605.03058.
- L'articolo è categorizzato sotto l'IA spiegabile (XAI).
- Il metodo utilizza l'ablazione gerarchica contrastiva per la localizzazione dei neuroni.
Entità
Istituzioni
- arXiv