Agenti AI automatizzano l'interpretabilità dei grandi modelli linguistici

ai-technology · 2026-05-06

Un framework multi-agente autonomo finalizzato all'interpretabilità meccanicistica è stato sviluppato da ricercatori, consentendo l'automazione sia della spiegazione che dell'identificazione delle caratteristiche interne dei grandi modelli linguistici. Questo sistema opera attraverso due processi interconnessi: il primo riguarda il perfezionamento della spiegazione, dove un agente formula ipotesi concorrenti e le testa iterativamente utilizzando controlli mirati dei prompt e una valutazione multi-metrica. Il secondo processo, la scoperta delle caratteristiche, vede l'agente creare set di prompt, costruire un grafo k-nearest-neighbor nello spazio di attivazione e identificare caratteristiche candidate basate sulla separabilità statistica e la coerenza semantica. Negli esperimenti con i modelli della famiglia Gemma-2 e neuroni MLP in transformer a pesi sparsi, l'agente supera le auto-interpretazioni one-shot, scopre caratteristiche specifiche della lingua e rilevanti per la sicurezza, e genera tracce di spiegazione verificabili. Questa ricerca illustra che i cicli empirici guidati da agenti producono spiegazioni più precise e testabili rispetto alle etichette one-shot.

Fatti principali

Il framework automatizza sia la spiegazione che la ricerca delle caratteristiche interne nei grandi modelli linguistici.
Utilizza due cicli accoppiati: perfezionamento della spiegazione e scoperta delle caratteristiche.
Il perfezionamento della spiegazione coinvolge un agente che propone ipotesi concorrenti e le testa con controlli dei prompt e valutazione multi-metrica.
La scoperta delle caratteristiche utilizza set di prompt, grafi k-nearest-neighbor e criteri di separabilità statistica.
Il sistema è stato testato sui modelli della famiglia Gemma-2 e neuroni MLP in transformer a pesi sparsi.
Supera le auto-interpretazioni one-shot.
Scopre caratteristiche specifiche della lingua e rilevanti per la sicurezza.
Produce tracce di spiegazione verificabili.

Entità

—

Fonti

arXiv cs.AI — 2026-05-05