PANDO: Agenti AI Multimodali Efficienti tramite Distillazione di Competenze Online
Un nuovo framework chiamato PANDO è stato sviluppato da ricercatori per migliorare l'efficienza degli agenti web multimodali affinando le competenze durante un singolo rollout. Attraverso un'analisi delle traiettorie di VisualWebArena, hanno scoperto tre principali inefficienze: cicli di azioni ripetute, costi di scoperta nascosti e minimo riutilizzo delle cache di prompt. PANDO presenta una Libreria di Competenze organizzata e implementa tecniche come riflessione sui progressi, declassamento delle competenze basato sulla confidenza, routing gerarchico, compressione visiva e prompting consapevole della cache. Nei test su 910 compiti in VisualWebArena, PANDO ha registrato un tasso di successo del 58,3%, superando SGV con il 54,0% e WALT con il 45,2%, utilizzando il 58% in meno di token rispetto a SGV e il 61% in meno rispetto a WALT. Il documento di ricerca è disponibile su arXiv con ID 2605.24785.
Fatti principali
- PANDO è un framework di distillazione di competenze online a singolo rollout per agenti web multimodali.
- Tre inefficienze identificate: cicli di azioni ripetute, costi di scoperta nascosti, basso riutilizzo della cache di prompt.
- PANDO utilizza una Libreria di Competenze strutturata con riflessione sui progressi, declassamento basato sulla confidenza, routing gerarchico, compressione visiva e prompting consapevole della cache.
- Testato su 910 compiti di VisualWebArena.
- Ha raggiunto un tasso di successo del 58,3%.
- Ha superato SGV (54,0%) e WALT (45,2%).
- Ha utilizzato il 58% in meno di token rispetto a SGV e il 61% in meno rispetto a WALT.
- Documento disponibile su arXiv: 2605.24785.
Entità
Istituzioni
- arXiv