Kit di Strumenti per l'Interpretabilità Meccanicistica dell'Uso di Strumenti da Parte di Agenti AI
Un nuovo kit di strumenti per l'interpretabilità meccanicistica, che utilizza Autoencoder Sparsi (SAE) e sonde lineari, è progettato per identificare e gestire i fallimenti nell'uso di strumenti da parte di agenti AI. Questo framework valuta gli stati del modello prima di ogni azione per determinare la necessità di uno strumento e il potenziale impatto dell'azione successiva. Le attuali tecniche di osservabilità, come prompt, valutazioni e log, sono in gran parte esterne e inadeguate per scenari a lungo termine, dove errori iniziali possono alterare i risultati, aumentare il consumo di token e creare rischi per la sicurezza. Per affrontare questi problemi, il kit scompone gli stati del modello per una migliore comprensione.
Fatti principali
- arXiv:2605.06890
- Tipo di annuncio: nuovo
- Abstract: Gli agenti AI sono promettenti per flussi di lavoro aziendali ad alto rischio
- I fallimenti nell'uso di strumenti sono difficili da diagnosticare e controllare
- Gli agenti possono saltare chiamate di strumenti necessarie, invocare strumenti inutilmente o intraprendere azioni le cui conseguenze sono visibili solo dopo l'esecuzione
- I metodi di osservabilità esistenti sono per lo più esterni: prompt, valutazioni, log
- In contesti a lungo termine, errori precoci nell'uso degli strumenti possono alterare la traiettoria, aumentare il consumo di token e creare rischi per la sicurezza a valle
- Il framework utilizza Autoencoder Sparsi (SAE) e sonde lineari
Entità
Istituzioni
- arXiv