SkillFlow Benchmark Testa la Scoperta e l'Evoluzione Continua delle Competenze negli Agenti Autonomi
È stato lanciato un nuovo benchmark denominato SkillFlow per valutare la capacità degli agenti autonomi di scoprire, riparare e mantenere competenze nel tempo. A differenza degli attuali benchmark che valutano l'applicazione di competenze fornite, SkillFlow si concentra sull'apprendimento degli agenti dalle esperienze per creare librerie di competenze coese. È composto da 166 task suddivisi in 20 famiglie, ciascuno conforme a un Domain-Agnostic Execution Flow (DAEF) che stabilisce un framework di flusso di lavoro uniforme. Gli agenti vengono testati utilizzando un protocollo di apprendimento continuo agentico, partendo senza competenze e affrontando i task in sequenza all'interno di ciascuna famiglia. Esternalizzano le intuizioni attraverso patch di competenze guidate da traiettorie e rubriche, migliorando la loro libreria di competenze. Gli esperimenti indicano un divario significativo nelle prestazioni degli agenti autonomi esistenti. Il documento di ricerca è disponibile su arXiv con l'identificatore 2604.17308v1, classificato come nuovo annuncio. Questa iniziativa affronta la frontiera delle capacità in evoluzione degli agenti autonomi, che sono sempre più abili nell'eseguire task specializzati tramite competenze esterne plug-and-play. La struttura del benchmark consente un flusso di lavoro coerente tra i task, promuovendo una valutazione approfondita delle capacità di apprendimento continuo degli agenti.
Fatti principali
- SkillFlow è un nuovo benchmark per agenti autonomi
- Valuta la scoperta, riparazione e manutenzione continua delle competenze
- Il benchmark include 166 task suddivisi in 20 famiglie
- I task seguono un Domain-Agnostic Execution Flow (DAEF)
- Gli agenti vengono valutati sotto un protocollo di apprendimento continuo agentico
- Gli esperimenti rivelano un divario sostanziale nelle capacità
- Il documento di ricerca è arXiv:2604.17308v1
- Gli attuali benchmark testano principalmente se i modelli possono utilizzare competenze fornite
Entità
Istituzioni
- arXiv