AQuaUI: Riduzione dei Token Senza Addestramento per Agenti GUI tramite Quadtree Adattivi
AQuaUI presenta un metodo innovativo per ridurre i token durante l'inferenza per modelli di agenti GUI, eliminando la necessità di addestramento. Sfruttando la densità informativa variabile presente negli screenshot, costruisce un quadtree adattivo per ogni input, mantenendo un singolo token fuso per ogni foglia. Questa strategia preserva le relazioni spaziali riducendo al minimo i token visivi senza bisogno di addestramento aggiuntivo o compressione basata sull'attenzione. Affronta il problema degli screenshot GUI ad alta risoluzione, dove vaste aree possono contenere informazioni minime, mentre testo critico e icone richiedono alta precisione. AQuaUI è proposto come soluzione efficace per agenti GUI basati su LMM che incorporano screenshot a ogni iterazione.
Fatti principali
- AQuaUI è un metodo di riduzione dei token durante l'inferenza senza addestramento
- Utilizza quadtree adattivi sugli screenshot in input
- Viene mantenuto un token fuso rappresentativo per ogni foglia del quadtree
- Preserva le posizioni spaziali
- Affronta la densità informativa non uniforme negli screenshot GUI
- Non richiede addestramento aggiuntivo o compressione basata sull'attenzione
- Target: modelli di agenti GUI basati su LMM
Entità
Istituzioni
- arXiv