RobustBench-TC: Benchmarking del divario simulazione-realtà negli agenti linguistici che utilizzano strumenti
Un nuovo benchmark, RobustBench-TC, mette in luce il divario simulazione-realtà negli agenti linguistici che utilizzano strumenti, introducendo 22 tipi di perturbazioni basate su fallimenti reali documentati in issue di GitHub. Le perturbazioni sono organizzate secondo quattro componenti del POMDP di utilizzo degli strumenti: osservazione, spazio delle azioni, metadati rilevanti per la ricompensa e dinamiche di transizione. I test su 21 modelli da 1,5 a 32 miliardi di parametri, incluso il modello closed-source o4-mini, rivelano una robustezza marcatamente disomogenea: le perturbazioni dell'osservazione riducono l'accuratezza meno di altri tipi. Il lavoro evidenzia che i benchmark attuali presuppongono input puliti, registri di strumenti non ambigui e API affidabili, mentre le implementazioni reali soffrono di errori di battitura degli utenti, timeout mal configurati e nomi di strumenti duplicati.
Fatti principali
- RobustBench-TC include 22 tipi di perturbazioni
- Le perturbazioni sono basate su issue GitHub verificati o fallimenti documentati nella chiamata di strumenti
- Testati 21 modelli da 1,5 a 32 miliardi di parametri
- Il modello closed-source o4-mini incluso nella valutazione
- Le perturbazioni dell'osservazione riducono l'accuratezza meno di altri tipi
- Perturbazioni organizzate secondo quattro componenti POMDP
- Le implementazioni reali affrontano errori di battitura degli utenti, timeout mal configurati, nomi di strumenti duplicati
- Studio pubblicato su arXiv con ID 2605.11928
Entità
Istituzioni
- arXiv