AgentAtlas: Nuova Tassonomia per Valutare gli Agenti LLM Oltre la Precisione
Un nuovo framework chiamato AgentAtlas propone una valutazione più sfumata degli agenti basati su grandi modelli linguistici (LLM). Gli attuali benchmark sono frammentati, concentrandosi su metriche come il successo del compito o la validità delle chiamate agli strumenti. AgentAtlas introduce una tassonomia di controllo-decisione a sei stati (Agisci, Chiedi, Rifiuta, Ferma, Conferma, Recupera) e una tassonomia di fallimento della traiettoria a nove categorie con etichette gerarchiche. Misura anche quanto della performance di un modello derivi dalla supervisione del prompt rispetto alla capacità intrinseca. Il lavoro affronta la necessità di una valutazione degli agenti implementabili oltre i singoli punteggi di precisione.
Fatti principali
- AgentAtlas introduce una tassonomia di controllo-decisione a sei stati: Agisci, Chiedi, Rifiuta, Ferma, Conferma, Recupera.
- È inclusa una tassonomia di fallimento della traiettoria a nove categorie con etichette ortogonali: fonte_primaria_di_errore e impatto.
- Il framework include una metodologia taxonomy-aware vs. taxonomy-blind.
- Gli attuali benchmark sono frammentati, ciascuno enfatizzando diverse unità di misura.
- Una linea di lavoro del 2024-2025 ha converguto sulla diagnosi che la singola precisione è insufficiente.
- AgentAtlas estende questa linea di lavoro con quattro componenti.
- La mappatura di audit della copertura dei benchmark fa parte di AgentAtlas.
- Il lavoro si concentra su agenti implementabili che agiscono su codebase, browser, sistemi operativi, ecc.
Entità
Istituzioni
- arXiv