Quadro di interpretabilità conforme per concetti temporali negli agenti LLM
Un recente preprint su arXiv (2604.19775) presenta un quadro volto a comprendere come i concetti si evolvono nel tempo all'interno degli agenti LLM. Questo approccio combina la modellazione delle ricompense passo-passo con la previsione conforme per classificare statisticamente le rappresentazioni interne in ogni fase come riuscite o non riuscite. Vengono utilizzate sonde lineari per rilevare direzioni latenti relative al successo, al fallimento o a cambiamenti nel ragionamento. La ricerca ha coinvolto esperimenti condotti in due ambienti simulati.
Fatti principali
- Preprint arXiv 2604.19775
- Titolo: From Actions to Understanding: Conformal Interpretability of Temporal Concepts in LLM Agents
- Introduce un quadro di interpretabilità conforme per compiti temporali
- Combina modellazione delle ricompense passo-passo con previsione conforme
- Etichetta la rappresentazione interna del modello in ogni passo come riuscita o fallita
- Addestra sonde lineari per identificare direzioni di concetti temporali
- I concetti includono successo, fallimento e deriva del ragionamento
- Risultati sperimentali su due ambienti simulati
Entità
Istituzioni
- arXiv