TASTE: Metodo Automatico Genera Benchmark Sfidanti per Agenti AI
Un nuovo articolo su arXiv introduce TASTE (Task Synthesis from Tool Sequence Evolution), un metodo automatico per generare benchmark sfidanti per agenti AI. Poiché i benchmark esistenti come τ²-Bench diventano saturi, TASTE inverte il processo tradizionale di costruzione dei compiti evolvendo prima le sequenze di strumenti e poi istanziandole in compiti. Utilizza un modello Adaptive Contrastive n-gram addestrato su segnali di validità giudicati da LLM per campionare sequenze di strumenti valide con ampia copertura. Le sequenze rappresentative vengono selezionate tramite clustering, quindi perfezionate in compiti benchmark completi. Il metodo affronta l'alto costo e la complessità della creazione manuale di benchmark ed espande la gamma di pattern di utilizzo degli strumenti testati.
Fatti principali
- TASTE sta per Task Synthesis from Tool Sequence Evolution
- L'articolo è su arXiv con ID 2605.28556
- Il benchmark esistente τ²-Bench sta diventando saturo
- TASTE inverte il processo standard di costruzione dei compiti
- Utilizza un modello Adaptive Contrastive n-gram
- Il modello è addestrato su segnali di validità giudicati da LLM
- Le sequenze di strumenti vengono campionate per un'ampia copertura
- Le sequenze rappresentative vengono selezionate tramite clustering
Entità
Istituzioni
- arXiv