Studio Valuta Sette Tattiche per Ridurre l'Uso di Token nei Modelli Linguistici Cloud nei Carichi di Lavoro degli Agenti di Programmazione
Uno studio di misurazione sistematica, arXiv:2604.12301v1, esamina sette tattiche per ridurre l'uso di token nei modelli linguistici di grandi dimensioni cloud integrando un piccolo modello locale come livello di triage. Le tattiche includono instradamento locale, compressione dei prompt, caching semantico, bozza locale con revisione cloud, modifiche a differenza minima, estrazione strutturata dell'intento e raggruppamento con caching dei prompt del fornitore. Implementato in uno shim open-source compatibile con interfacce MCP e simili a OpenAI HTTP, il sistema supporta qualsiasi modello locale tramite Ollama e qualsiasi modello cloud tramite endpoint compatibili con OpenAI. La valutazione copre quattro classi di carichi di lavoro per agenti di programmazione: scenari con molte modifiche, con molte spiegazioni, chat generali e con molta RAG. Le metriche misurate includono token risparmiati, costo in dollari, latenza e accuratezza dell'instradamento. Il risultato principale indica che combinare l'instradamento locale con la compressione dei prompt raggiunge una riduzione del 45% nell'uso dei token. Lo studio, annunciato come abstract cross-type, non specifica autori o date oltre l'identificatore arXiv.
Fatti principali
- arXiv:2604.12301v1 è un annuncio di abstract cross-type
- Sette tattiche sono studiate per ridurre l'uso di token nei modelli linguistici cloud
- Le tattiche includono instradamento locale e compressione dei prompt
- Uno shim open-source implementa tutte e sette le tattiche
- Lo shim supporta interfacce MCP e compatibili con OpenAI HTTP
- I modelli locali sono accessibili tramite Ollama
- I modelli cloud utilizzano endpoint compatibili con OpenAI
- La valutazione copre quattro classi di carichi di lavoro per agenti di programmazione
Entità
Istituzioni
- arXiv
- OpenAI