ARTFEED — Contemporary Art Intelligence

PrefixGuard: Monitor di Avviso di Fallimento per Agenti LLM

ai-technology · 2026-05-09

PrefixGuard è un framework per addestrare monitor leggeri che avvisano di fallimenti degli agenti LLM a metà compito, utilizzando induzione StepView offline e apprendimento supervisionato. Raggiunge fino a 0,900 AUPRC su WebArena, superando i controlli di testo grezzo di +0,137 AUPRC in media.

Fatti principali

  • PrefixGuard è un framework trace-to-monitor per agenti LLM.
  • Utilizza un passo di induzione StepView offline seguito da addestramento supervisionato del monitor.
  • StepView induce adattatori deterministici a passi tipizzati da campioni di tracce grezze.
  • Il monitor apprende un'astrazione degli eventi e uno scorer di rischio del prefisso dai risultati terminali.
  • Testato su WebArena, τ²-Bench, SkillsBench e TerminalBench.
  • I monitor PrefixGuard più forti raggiungono 0,900/0,710/0,533/0,557 AUPRC.
  • Migliora rispetto ai controlli di testo grezzo di una media di +0,137 AUPRC.
  • I giudici LLM sono sostanzialmente più deboli sotto lo stesso protocollo di avviso del prefisso.

Entità

Fonti