MechaRule: Fondare l'Estrazione di Regole da LLM sui Circuiti Neurali

ai-technology · 2026-05-07

I ricercatori propongono MechaRule, una pipeline che estrae regole simboliche da grandi modelli linguistici ancorandole a neuroni specifici. Il metodo identifica neuroni 'agonisti' la cui neutralizzazione dell'attivazione interrompe i comportamenti legati alle regole. Sfrutta l'osservazione che gli effetti agonisti sparsi sono approssimativamente monotoni e saturanti, consentendo una localizzazione efficiente senza ipotesi predefinite. L'approccio collega l'estrazione globale di regole e l'interpretabilità meccanicistica.

Fatti principali

MechaRule è una pipeline per l'estrazione di regole da LLM basata sui circuiti neurali.
Identifica neuroni sparsi chiamati agonisti la cui neutralizzazione interrompe i comportamenti legati alle regole.
Il metodo si basa su osservazioni empiriche di effetti agonisti monotoni e saturanti.
Evita ipotesi predefinite e interventi costosi a livello di neuroni.
L'approccio combina l'estrazione globale di regole con l'interpretabilità meccanicistica.
La ricerca è pubblicata su arXiv con ID 2605.03058.
L'articolo è categorizzato sotto l'IA spiegabile (XAI).
Il metodo utilizza l'ablazione gerarchica contrastiva per la localizzazione dei neuroni.

MechaRule: Fondare l'Estrazione di Regole da LLM sui Circuiti Neurali

Fatti principali

Entità

Istituzioni

Fonti