AsyncTool Benchmark Valuta gli Agenti LLM nella Chiamata Asincrona di Strumenti

ai-technology · 2026-05-28

I ricercatori hanno introdotto AsyncTool, un benchmark progettato per valutare le capacità di chiamata asincrona di funzioni degli agenti basati su modelli linguistici di grandi dimensioni (LLM) in ambienti multi-task. Le valutazioni esistenti tipicamente trascurano la latenza di risposta degli strumenti e sono limitate a contesti a singolo task. AsyncTool affronta questo problema simulando ritardi realistici nel feedback degli strumenti, presentando contemporaneamente più task eterogenei. Il benchmark utilizza una strategia ibrida di evoluzione dei dati per costruire un dataset diversificato che copre molteplici scenari. Il lavoro è dettagliato nel preprint arXiv 2605.27995.

Fatti principali

AsyncTool è un benchmark per valutare la chiamata asincrona di strumenti negli agenti LLM.
Affronta la dimensione temporale dell'uso degli strumenti, in particolare la latenza di risposta.
Il benchmark simula ambienti multi-task con feedback ritardato degli strumenti.
È stata utilizzata una strategia ibrida di evoluzione dei dati per creare il dataset.
La ricerca è pubblicata su arXiv con ID 2605.27995.
Le valutazioni esistenti spesso ignorano la latenza di risposta degli strumenti.
AsyncTool presenta più task eterogenei simultaneamente.
Il lavoro si concentra sull'esecuzione concorrente di task nel mondo reale.

AsyncTool Benchmark Valuta gli Agenti LLM nella Chiamata Asincrona di Strumenti

Fatti principali

Entità

Istituzioni

Fonti