ToolCUA: Orchestrazione Ottimale dei Percorsi Strumento-GUI per Agenti di Uso del Computer
Una recente pubblicazione su arXiv presenta ToolCUA, un agente completo progettato per ottimizzare la selezione dei percorsi Strumento-GUI per Agenti di Uso del Computer (CUA). I CUA utilizzano sia azioni GUI di base (come cliccare e digitare) che comandi strumentali avanzati (come operazioni su file tramite API). Tuttavia, spesso affrontano difficoltà nel decidere se proseguire con azioni GUI o passare agli strumenti, portando a percorsi di esecuzione inefficienti. Questo problema deriva dalla mancanza di traiettorie GUI-Strumento intervallate di qualità, dalle difficoltà e fragilità associate alla raccolta di traiettorie strumentali reali e da una guida insufficiente a livello di traiettoria per la selezione del percorso. ToolCUA presenta una Pipeline di Scalatura delle Traiettorie GUI-Strumento Intervallate che utilizza abbondanti traiettorie GUI statiche e crea una libreria di strumenti fondata, facilitando traiettorie GUI-Strumento variate senza la necessità di ingegneria manuale o raccolta effettiva di traiettorie strumentali. L'articolo è disponibile su arXiv con l'identificatore 2605.12481.
Fatti principali
- ToolCUA è un agente end-to-end per Agenti di Uso del Computer.
- Apprende la selezione ottimale del percorso Strumento-GUI.
- I CUA utilizzano sia azioni GUI atomiche che chiamate strumentali di alto livello.
- Lo spazio delle azioni ibrido causa incertezza nella selezione del percorso.
- La scarsità di traiettorie intervallate di alta qualità è una sfida.
- La Pipeline di Scalatura delle Traiettorie GUI-Strumento Intervallate riutilizza traiettorie GUI statiche.
- Sintetizza una libreria di strumenti fondata.
- L'articolo è su arXiv con ID 2605.12481.
Entità
Istituzioni
- arXiv