Introduzione del Benchmark SEA-Eval per la Valutazione degli Agenti AI Auto-Evolutivi
È stato introdotto un nuovo benchmark denominato SEA-Eval per valutare gli Agenti Auto-Evolutivi (SEA), sistemi di intelligenza artificiale che apprendono da esperienze che vanno oltre i singoli compiti, evitando così l'amnesia episodica. Lo studio definisce la Ruota Evolutiva come l'architettura essenziale per i SEA e identifica SR e T come metriche di valutazione chiave. Progettando un flusso di compiti sequenziali, SEA-Eval consente la misurazione indipendente del guadagno evolutivo, della stabilità e della convergenza dell'allineamento implicito. In particolare, i risultati empirici indicano una notevole variazione nell'uso dei token—fino a 31,2× tra diversi framework—nonostante tassi di successo simili. Questo benchmark evidenzia che basarsi esclusivamente sui tassi di successo può portare a valutazioni fuorvianti, poiché i framework mostrano percorsi evolutivi diversi durante l'analisi sequenziale. La ricerca, che affronta i limiti degli attuali agenti basati su LLM, è stata pubblicata su arXiv con l'identificatore 2604.08988v2.
Fatti principali
- SEA-Eval è il primo benchmark progettato specificamente per valutare gli Agenti Auto-Evolutivi
- La ricerca formalizza la Ruota Evolutiva come l'architettura minima sufficiente per i SEA
- SR e T sono stabiliti come metriche primarie per la valutazione
- La progettazione del flusso di compiti sequenziali consente la quantificazione indipendente del guadagno evolutivo, della stabilità e della convergenza dell'allineamento
- La valutazione empirica mostra che il consumo di token differisce fino a 31,2× tra framework con tassi di successo identici
- I framework dimostrano traiettorie evolutive divergenti sotto analisi sequenziale
- Gli attuali agenti basati su LLM sono limitati da set di strumenti statici e amnesia episodica
- La ricerca è stata pubblicata su arXiv con l'identificatore 2604.08988v2
Entità
Istituzioni
- arXiv