EnvTrustBench: Benchmarking dei difetti di ancoraggio alle prove negli agenti LLM
È stato lanciato un nuovo framework di benchmarking, EnvTrustBench, per valutare i difetti di ancoraggio alle prove negli agenti basati su grandi modelli linguistici. Questi agenti dipendono sempre più da risorse esterne come file, pagine web, API e log, che influenzano l'uso degli strumenti e la sequenza delle azioni. Tuttavia, l'accuratezza di questi input rimane discutibile. Mentre i benchmark attuali valutano le prestazioni dei compiti o minacce specifiche come l'iniezione di prompt, non considerano se gli agenti rimangano allineati con lo stato autentico dell'ambiente quando le loro osservazioni sono obsolete o ingannevoli. EnvTrustBench caratterizza un difetto di ancoraggio alle prove (EGD) come un fallimento comportamentale in cui un agente accetta erroneamente come valida un'osservazione errata proveniente dall'ambiente. Il framework comprende l'ammissione del contesto, la provenienza delle prove, la politica di verifica, il gating delle azioni e il ragionamento del modello. Questa ricerca è stata pubblicata su arXiv con ID 2605.08828.
Fatti principali
- EnvTrustBench è un nuovo framework agentico per il benchmarking dei difetti di ancoraggio alle prove.
- Gli agenti LLM utilizzano scaffold orientati all'ambiente come file, pagine web, API e log.
- I benchmark esistenti trascurano la questione dell'affidabilità dell'ancoraggio allo stato reale dell'ambiente.
- Il difetto di ancoraggio alle prove (EGD) è definito come il trattamento di osservazioni errate come autorevoli.
- Il framework copre l'ammissione del contesto, la provenienza delle prove, il controllo della freschezza, la politica di verifica, il gating delle azioni e il ragionamento del modello.
- Pubblicato su arXiv con ID 2605.08828.
Entità
Istituzioni
- arXiv