Studio Valuta Sette Tattiche per Ridurre l'Uso di Token nei Modelli Linguistici Cloud nei Carichi di Lavoro degli Agenti di Programmazione

ai-technology · 2026-04-15

Uno studio di misurazione sistematica, arXiv:2604.12301v1, esamina sette tattiche per ridurre l'uso di token nei modelli linguistici di grandi dimensioni cloud integrando un piccolo modello locale come livello di triage. Le tattiche includono instradamento locale, compressione dei prompt, caching semantico, bozza locale con revisione cloud, modifiche a differenza minima, estrazione strutturata dell'intento e raggruppamento con caching dei prompt del fornitore. Implementato in uno shim open-source compatibile con interfacce MCP e simili a OpenAI HTTP, il sistema supporta qualsiasi modello locale tramite Ollama e qualsiasi modello cloud tramite endpoint compatibili con OpenAI. La valutazione copre quattro classi di carichi di lavoro per agenti di programmazione: scenari con molte modifiche, con molte spiegazioni, chat generali e con molta RAG. Le metriche misurate includono token risparmiati, costo in dollari, latenza e accuratezza dell'instradamento. Il risultato principale indica che combinare l'instradamento locale con la compressione dei prompt raggiunge una riduzione del 45% nell'uso dei token. Lo studio, annunciato come abstract cross-type, non specifica autori o date oltre l'identificatore arXiv.

Fatti principali

arXiv:2604.12301v1 è un annuncio di abstract cross-type
Sette tattiche sono studiate per ridurre l'uso di token nei modelli linguistici cloud
Le tattiche includono instradamento locale e compressione dei prompt
Uno shim open-source implementa tutte e sette le tattiche
Lo shim supporta interfacce MCP e compatibili con OpenAI HTTP
I modelli locali sono accessibili tramite Ollama
I modelli cloud utilizzano endpoint compatibili con OpenAI
La valutazione copre quattro classi di carichi di lavoro per agenti di programmazione

Studio Valuta Sette Tattiche per Ridurre l'Uso di Token nei Modelli Linguistici Cloud nei Carichi di Lavoro degli Agenti di Programmazione

Fatti principali

Entità

Istituzioni

Fonti