Proposto un framework multi-agente per l'esecuzione automatica di flussi di lavoro
I ricercatori hanno introdotto un nuovo framework multi-agente multimodale progettato per eseguire automaticamente flussi di lavoro complessi. Il sistema opera in due fasi: una fase di scoperta offline che costruisce una base di conoscenza topologica a partire da log di esecuzione frammentati, e una fase di inferenza che utilizza la generazione aumentata da recupero adattivo (Adaptive RAG) su questo grafo. Questo approccio supera le limitazioni dei metodi attuali che trattano le sequenze di attività come episodi discreti e lineari, consentendo agli agenti di catturare la topologia di transizione sottostante e migliorare le prestazioni in scenari nuovi o non stazionari. Il framework integra MLLM per l'interazione GUI e mira a migliorare la navigazione autonoma dei moderni sistemi informativi.
Fatti principali
- Il framework utilizza una pipeline a due fasi: scoperta offline e inferenza.
- La fase offline costruisce una base di conoscenza topologica dai log di esecuzione.
- La fase di inferenza impiega Adaptive RAG su un grafo predefinito.
- Affronta la frammentazione nella modellazione delle sequenze di attività attuali.
- Integra MLLM per l'interazione GUI.
- Mira all'esecuzione automatica di flussi di lavoro in sistemi informativi complessi.
- Proposto per migliorare l'efficacia degli agenti in scenari nuovi.
- Pubblicato su arXiv con ID 2605.28607.
Entità
Istituzioni
- arXiv