PrefixGuard: Monitor di Avviso di Fallimento per Agenti LLM
PrefixGuard è un framework per addestrare monitor leggeri che avvisano di fallimenti degli agenti LLM a metà compito, utilizzando induzione StepView offline e apprendimento supervisionato. Raggiunge fino a 0,900 AUPRC su WebArena, superando i controlli di testo grezzo di +0,137 AUPRC in media.
Fatti principali
- PrefixGuard è un framework trace-to-monitor per agenti LLM.
- Utilizza un passo di induzione StepView offline seguito da addestramento supervisionato del monitor.
- StepView induce adattatori deterministici a passi tipizzati da campioni di tracce grezze.
- Il monitor apprende un'astrazione degli eventi e uno scorer di rischio del prefisso dai risultati terminali.
- Testato su WebArena, τ²-Bench, SkillsBench e TerminalBench.
- I monitor PrefixGuard più forti raggiungono 0,900/0,710/0,533/0,557 AUPRC.
- Migliora rispetto ai controlli di testo grezzo di una media di +0,137 AUPRC.
- I giudici LLM sono sostanzialmente più deboli sotto lo stesso protocollo di avviso del prefisso.
Entità
—