Gli agenti web basati su LLM falliscono nell'esecuzione di basso livello, non nella pianificazione di alto livello
Una recente indagine pubblicata su arXiv (2603.14248) indica che gli agenti web che utilizzano modelli linguistici di grandi dimensioni (LLM) affrontano sfide maggiori nell'esecuzione di basso livello rispetto al ragionamento di alto livello. Gli autori introducono un framework di pianificazione gerarchica che valuta gli agenti attraverso tre livelli distinti: pianificazione di alto livello, esecuzione di basso livello e ri-pianificazione. I risultati rivelano che i piani strutturati in PDDL (Planning Domain Definition Language) sono più concisi e orientati agli obiettivi rispetto ai piani in linguaggio naturale (NL). Tuttavia, l'ostacolo principale è l'esecuzione di basso livello, evidenziando la necessità di miglioramenti nel grounding percettivo e nel controllo adattivo per raggiungere un'affidabilità di livello umano. La ricerca sostiene un approccio di valutazione basato sul processo anziché basarsi esclusivamente su metriche di successo end-to-end.
Fatti principali
- Lo studio analizza gli agenti web LLM utilizzando un framework di pianificazione gerarchica
- Tre livelli esaminati: pianificazione di alto livello, esecuzione di basso livello, ri-pianificazione
- I piani PDDL producono strategie più concise e orientate agli obiettivi rispetto ai piani NL
- L'esecuzione di basso livello è il collo di bottiglia dominante
- Migliorare il grounding percettivo e il controllo adattivo è fondamentale
- Le valutazioni esistenti si concentrano sul successo end-to-end, offrendo informazioni limitate
- Ricerca pubblicata su arXiv con ID 2603.14248
- Lo studio fornisce una base principiata per diagnosticare i fallimenti degli agenti
Entità
Istituzioni
- arXiv