Architettura Compile-and-Execute riduce i costi di inferenza degli agenti web LLM del 99,9%

ai-technology · 2026-05-01

Uno studio recente pubblicato su arXiv (2604.09718) presenta un framework Compile-and-Execute volto ad affrontare la Crisi di Riesecuzione associata all'automazione web basata su LLM. Questa crisi è caratterizzata dall'aumento lineare dell'uso di token e della latenza API durante esecuzioni ripetute di attività; ad esempio, un flusso di lavoro in 5 passaggi ripetuto 500 volte comporta costi di inferenza di circa $150,00, o $15,00 utilizzando una cache aggressiva. L'approccio innovativo separa il ragionamento dell'LLM dall'esecuzione del browser utilizzando una singola chiamata LLM su una rappresentazione semantica efficiente in termini di token generata da un Modulo di Sanificazione del DOM (DSM), che produce un blueprint JSON deterministico del flusso di lavoro. Successivamente, un runtime leggero esegue le azioni del browser senza ulteriori query al modello, riducendo il costo di inferenza per flusso di lavoro a meno di $0,10. L'articolo approfondisce la formalizzazione di questa riduzione dei costi.

Fatti principali

L'articolo arXiv 2604.09718 propone un'architettura Compile-and-Execute per agenti web LLM
Crisi di Riesecuzione: crescita lineare del consumo di token e della latenza API con la frequenza di esecuzione
Flusso di lavoro in 5 passaggi su 500 iterazioni costa circa $150,00 in costi di inferenza
Anche con cache aggressiva, il costo rimane vicino a $15,00
Il metodo proposto riduce il costo di inferenza per flusso di lavoro a meno di $0,10
Una singola invocazione LLM utilizza una rappresentazione semantica efficiente in termini di token dal Modulo di Sanificazione del DOM (DSM)
L'output è un blueprint JSON deterministico del flusso di lavoro
Un runtime leggero guida il browser senza ulteriori query al modello

Architettura Compile-and-Execute riduce i costi di inferenza degli agenti web LLM del 99,9%

Fatti principali

Entità

Istituzioni

Fonti