ARTFEED — Contemporary Art Intelligence

PANDO: Agenti AI Multimodali Efficienti tramite Distillazione di Competenze Online

ai-technology · 2026-05-26

Un nuovo framework chiamato PANDO è stato sviluppato da ricercatori per migliorare l'efficienza degli agenti web multimodali affinando le competenze durante un singolo rollout. Attraverso un'analisi delle traiettorie di VisualWebArena, hanno scoperto tre principali inefficienze: cicli di azioni ripetute, costi di scoperta nascosti e minimo riutilizzo delle cache di prompt. PANDO presenta una Libreria di Competenze organizzata e implementa tecniche come riflessione sui progressi, declassamento delle competenze basato sulla confidenza, routing gerarchico, compressione visiva e prompting consapevole della cache. Nei test su 910 compiti in VisualWebArena, PANDO ha registrato un tasso di successo del 58,3%, superando SGV con il 54,0% e WALT con il 45,2%, utilizzando il 58% in meno di token rispetto a SGV e il 61% in meno rispetto a WALT. Il documento di ricerca è disponibile su arXiv con ID 2605.24785.

Fatti principali

  • PANDO è un framework di distillazione di competenze online a singolo rollout per agenti web multimodali.
  • Tre inefficienze identificate: cicli di azioni ripetute, costi di scoperta nascosti, basso riutilizzo della cache di prompt.
  • PANDO utilizza una Libreria di Competenze strutturata con riflessione sui progressi, declassamento basato sulla confidenza, routing gerarchico, compressione visiva e prompting consapevole della cache.
  • Testato su 910 compiti di VisualWebArena.
  • Ha raggiunto un tasso di successo del 58,3%.
  • Ha superato SGV (54,0%) e WALT (45,2%).
  • Ha utilizzato il 58% in meno di token rispetto a SGV e il 61% in meno rispetto a WALT.
  • Documento disponibile su arXiv: 2605.24785.

Entità

Istituzioni

  • arXiv

Fonti