Agenti AI automatizzano l'interpretabilità dei grandi modelli linguistici
Un framework multi-agente autonomo finalizzato all'interpretabilità meccanicistica è stato sviluppato da ricercatori, consentendo l'automazione sia della spiegazione che dell'identificazione delle caratteristiche interne dei grandi modelli linguistici. Questo sistema opera attraverso due processi interconnessi: il primo riguarda il perfezionamento della spiegazione, dove un agente formula ipotesi concorrenti e le testa iterativamente utilizzando controlli mirati dei prompt e una valutazione multi-metrica. Il secondo processo, la scoperta delle caratteristiche, vede l'agente creare set di prompt, costruire un grafo k-nearest-neighbor nello spazio di attivazione e identificare caratteristiche candidate basate sulla separabilità statistica e la coerenza semantica. Negli esperimenti con i modelli della famiglia Gemma-2 e neuroni MLP in transformer a pesi sparsi, l'agente supera le auto-interpretazioni one-shot, scopre caratteristiche specifiche della lingua e rilevanti per la sicurezza, e genera tracce di spiegazione verificabili. Questa ricerca illustra che i cicli empirici guidati da agenti producono spiegazioni più precise e testabili rispetto alle etichette one-shot.
Fatti principali
- Il framework automatizza sia la spiegazione che la ricerca delle caratteristiche interne nei grandi modelli linguistici.
- Utilizza due cicli accoppiati: perfezionamento della spiegazione e scoperta delle caratteristiche.
- Il perfezionamento della spiegazione coinvolge un agente che propone ipotesi concorrenti e le testa con controlli dei prompt e valutazione multi-metrica.
- La scoperta delle caratteristiche utilizza set di prompt, grafi k-nearest-neighbor e criteri di separabilità statistica.
- Il sistema è stato testato sui modelli della famiglia Gemma-2 e neuroni MLP in transformer a pesi sparsi.
- Supera le auto-interpretazioni one-shot.
- Scopre caratteristiche specifiche della lingua e rilevanti per la sicurezza.
- Produce tracce di spiegazione verificabili.
Entità
—