RobustBench-TC: Benchmarking del divario simulazione-realtà negli agenti linguistici che utilizzano strumenti

ai-technology · 2026-05-13

Un nuovo benchmark, RobustBench-TC, mette in luce il divario simulazione-realtà negli agenti linguistici che utilizzano strumenti, introducendo 22 tipi di perturbazioni basate su fallimenti reali documentati in issue di GitHub. Le perturbazioni sono organizzate secondo quattro componenti del POMDP di utilizzo degli strumenti: osservazione, spazio delle azioni, metadati rilevanti per la ricompensa e dinamiche di transizione. I test su 21 modelli da 1,5 a 32 miliardi di parametri, incluso il modello closed-source o4-mini, rivelano una robustezza marcatamente disomogenea: le perturbazioni dell'osservazione riducono l'accuratezza meno di altri tipi. Il lavoro evidenzia che i benchmark attuali presuppongono input puliti, registri di strumenti non ambigui e API affidabili, mentre le implementazioni reali soffrono di errori di battitura degli utenti, timeout mal configurati e nomi di strumenti duplicati.

Fatti principali

RobustBench-TC include 22 tipi di perturbazioni
Le perturbazioni sono basate su issue GitHub verificati o fallimenti documentati nella chiamata di strumenti
Testati 21 modelli da 1,5 a 32 miliardi di parametri
Il modello closed-source o4-mini incluso nella valutazione
Le perturbazioni dell'osservazione riducono l'accuratezza meno di altri tipi
Perturbazioni organizzate secondo quattro componenti POMDP
Le implementazioni reali affrontano errori di battitura degli utenti, timeout mal configurati, nomi di strumenti duplicati
Studio pubblicato su arXiv con ID 2605.11928

RobustBench-TC: Benchmarking del divario simulazione-realtà negli agenti linguistici che utilizzano strumenti

Fatti principali

Entità

Istituzioni

Fonti