TASTE: Metodo Automatico Genera Benchmark Sfidanti per Agenti AI

ai-technology · 2026-05-28

Un nuovo articolo su arXiv introduce TASTE (Task Synthesis from Tool Sequence Evolution), un metodo automatico per generare benchmark sfidanti per agenti AI. Poiché i benchmark esistenti come τ²-Bench diventano saturi, TASTE inverte il processo tradizionale di costruzione dei compiti evolvendo prima le sequenze di strumenti e poi istanziandole in compiti. Utilizza un modello Adaptive Contrastive n-gram addestrato su segnali di validità giudicati da LLM per campionare sequenze di strumenti valide con ampia copertura. Le sequenze rappresentative vengono selezionate tramite clustering, quindi perfezionate in compiti benchmark completi. Il metodo affronta l'alto costo e la complessità della creazione manuale di benchmark ed espande la gamma di pattern di utilizzo degli strumenti testati.

Fatti principali

TASTE sta per Task Synthesis from Tool Sequence Evolution
L'articolo è su arXiv con ID 2605.28556
Il benchmark esistente τ²-Bench sta diventando saturo
TASTE inverte il processo standard di costruzione dei compiti
Utilizza un modello Adaptive Contrastive n-gram
Il modello è addestrato su segnali di validità giudicati da LLM
Le sequenze di strumenti vengono campionate per un'ampia copertura
Le sequenze rappresentative vengono selezionate tramite clustering

TASTE: Metodo Automatico Genera Benchmark Sfidanti per Agenti AI

Fatti principali

Entità

Istituzioni

Fonti