Il framework A11y-Compressor migliora l'efficienza degli agenti GUI
A11y-Compressor è stato sviluppato da ricercatori come framework volto a migliorare l'efficienza delle osservazioni degli agenti GUI attraverso la conversione di alberi di accessibilità linearizzati in forme strutturate più compatte. L'implementazione, nota come Compressed-a11y, utilizza una pipeline semplificata che include rilevamento modale, eliminazione delle ridondanze e organizzazione semantica. Valutato utilizzando il benchmark OSWorld, Compressed-a11y ha ottenuto una riduzione dei token di input al 22% del conteggio originale, migliorando al contempo i tassi di successo dei task in media di 5,1 punti percentuali. Questa iniziativa affronta problemi legati alla ridondanza e all'assenza di dati sulle relazioni spaziali nei formati convenzionali degli alberi di accessibilità.
Fatti principali
- A11y-Compressor trasforma gli alberi di accessibilità linearizzati in rappresentazioni strutturate compatte.
- Compressed-a11y utilizza rilevamento modale, riduzione delle ridondanze e strutturazione semantica.
- Testato sul benchmark OSWorld.
- Riduce i token di input al 22% dell'originale.
- Migliora i tassi di successo dei task in media di 5,1 punti percentuali.
- Affronta la ridondanza e la mancanza di relazioni spaziali negli alberi di accessibilità.
- Pubblicato su arXiv sotto Computer Science > Computation and Language.
- ID arXiv: 2605.00551.
Entità
Istituzioni
- arXiv