Tool Attention riduce il sovraccarico di token MCP nei flussi di lavoro degli agenti LLM
Un recente studio pubblicato su arXiv (2604.21816) presenta Tool Attention, una soluzione middleware volta ad affrontare la 'MCP Tax' o 'Tools Tax' nei flussi di lavoro agentici scalabili. Il Model Context Protocol (MCP) collega tipicamente gli agenti LLM con strumenti esterni, ma comporta un sovraccarico per turno da 10k a 60k token a causa della sua iniezione di schema stateless e eager. Questo eccesso di carico ingrandisce la cache chiave-valore e ostacola il ragionamento quando l'utilizzo del contesto raggiunge il 70%. Tool Attention estende il framework 'Attention Is All You Need', passando dall'auto-attenzione sui token all'attenzione gated per gli strumenti. Integra un punteggio Intent Schema Overlap (ISO) derivato da embedding di frasi, un meccanismo di gating state-aware per precondizioni e ambiti di accesso, insieme a un caricatore di schema lazy a due fasi, con l'obiettivo di ridurre i costi ricorrenti del budget di token.
Fatti principali
- Il paper arXiv:2604.21816 introduce Tool Attention.
- MCP impone un sovraccarico per turno da 10k a 60k token.
- Il sovraccarico gonfia la cache chiave-valore e degrada il ragionamento al 70% di utilizzo del contesto.
- Tool Attention utilizza attenzione gated sugli strumenti.
- Componenti: punteggio Intent Schema Overlap (ISO), gating state-aware, caricatore di schema lazy a due fasi.
- Il punteggio ISO è derivato da embedding di frasi.
- Il gating impone precondizioni e ambiti di accesso.
- L'obiettivo è eliminare la MCP Tax nei flussi di lavoro agentici scalabili.
Entità
Istituzioni
- arXiv