Gli agenti web basati su LLM falliscono nell'esecuzione di basso livello, non nella pianificazione di alto livello

ai-technology · 2026-04-30

Una recente indagine pubblicata su arXiv (2603.14248) indica che gli agenti web che utilizzano modelli linguistici di grandi dimensioni (LLM) affrontano sfide maggiori nell'esecuzione di basso livello rispetto al ragionamento di alto livello. Gli autori introducono un framework di pianificazione gerarchica che valuta gli agenti attraverso tre livelli distinti: pianificazione di alto livello, esecuzione di basso livello e ri-pianificazione. I risultati rivelano che i piani strutturati in PDDL (Planning Domain Definition Language) sono più concisi e orientati agli obiettivi rispetto ai piani in linguaggio naturale (NL). Tuttavia, l'ostacolo principale è l'esecuzione di basso livello, evidenziando la necessità di miglioramenti nel grounding percettivo e nel controllo adattivo per raggiungere un'affidabilità di livello umano. La ricerca sostiene un approccio di valutazione basato sul processo anziché basarsi esclusivamente su metriche di successo end-to-end.

Fatti principali

Lo studio analizza gli agenti web LLM utilizzando un framework di pianificazione gerarchica
Tre livelli esaminati: pianificazione di alto livello, esecuzione di basso livello, ri-pianificazione
I piani PDDL producono strategie più concise e orientate agli obiettivi rispetto ai piani NL
L'esecuzione di basso livello è il collo di bottiglia dominante
Migliorare il grounding percettivo e il controllo adattivo è fondamentale
Le valutazioni esistenti si concentrano sul successo end-to-end, offrendo informazioni limitate
Ricerca pubblicata su arXiv con ID 2603.14248
Lo studio fornisce una base principiata per diagnosticare i fallimenti degli agenti

Gli agenti web basati su LLM falliscono nell'esecuzione di basso livello, non nella pianificazione di alto livello

Fatti principali

Entità

Istituzioni

Fonti