PANDO: Agenti AI Multimodali Efficienti tramite Distillazione di Competenze Online

ai-technology · 2026-05-26

Un nuovo framework chiamato PANDO è stato sviluppato da ricercatori per migliorare l'efficienza degli agenti web multimodali affinando le competenze durante un singolo rollout. Attraverso un'analisi delle traiettorie di VisualWebArena, hanno scoperto tre principali inefficienze: cicli di azioni ripetute, costi di scoperta nascosti e minimo riutilizzo delle cache di prompt. PANDO presenta una Libreria di Competenze organizzata e implementa tecniche come riflessione sui progressi, declassamento delle competenze basato sulla confidenza, routing gerarchico, compressione visiva e prompting consapevole della cache. Nei test su 910 compiti in VisualWebArena, PANDO ha registrato un tasso di successo del 58,3%, superando SGV con il 54,0% e WALT con il 45,2%, utilizzando il 58% in meno di token rispetto a SGV e il 61% in meno rispetto a WALT. Il documento di ricerca è disponibile su arXiv con ID 2605.24785.

Fatti principali

PANDO è un framework di distillazione di competenze online a singolo rollout per agenti web multimodali.
Tre inefficienze identificate: cicli di azioni ripetute, costi di scoperta nascosti, basso riutilizzo della cache di prompt.
PANDO utilizza una Libreria di Competenze strutturata con riflessione sui progressi, declassamento basato sulla confidenza, routing gerarchico, compressione visiva e prompting consapevole della cache.
Testato su 910 compiti di VisualWebArena.
Ha raggiunto un tasso di successo del 58,3%.
Ha superato SGV (54,0%) e WALT (45,2%).
Ha utilizzato il 58% in meno di token rispetto a SGV e il 61% in meno rispetto a WALT.
Documento disponibile su arXiv: 2605.24785.

PANDO: Agenti AI Multimodali Efficienti tramite Distillazione di Competenze Online

Fatti principali

Entità

Istituzioni

Fonti