La Memoria Agentiva Eseguibile Migliora le Prestazioni degli Agenti GUI
I ricercatori hanno introdotto la Memoria Agentiva Eseguibile (EAM), un Grafo di Conoscenza (KG) ben strutturato che trasforma la pianificazione GUI dalla generazione non strutturata al recupero e all'esecuzione efficienti. Questo metodo presenta una pipeline di costruzione della memoria efficiente in termini di campioni, che utilizza DFS state-aware e mining di gruppi di azioni. Una ricerca nel grafo guidata dal valore, alimentata da un modello leggero di funzione Q, dirige la Ricerca ad Albero Monte Carlo (MCTS) attraverso il KG. Lo studio stabilisce la coerenza teorica del bias per il modello Q e fissa i limiti di complessità campionaria per il recupero del percorso. EAM dimostra un miglioramento delle prestazioni fino al 19,6% rispetto a UI-TARS-7B su AndroidWorld, riducendo al contempo i costi dei token di un fattore 6. La ricerca è accessibile su arXiv.
Fatti principali
- EAM è un Grafo di Conoscenza strutturato per la pianificazione GUI.
- La costruzione della memoria utilizza DFS state-aware e mining di gruppi di azioni.
- La ricerca nel grafo guidata dal valore impiega MCTS con un modello leggero di funzione Q.
- Vengono derivate la coerenza teorica del bias e i limiti di complessità campionaria.
- EAM supera UI-TARS-7B fino al 19,6% su AndroidWorld.
- I costi dei token sono ridotti di 6×.
- Articolo disponibile su arXiv con ID 2605.12294.
Entità
Istituzioni
- arXiv