XGrammar-2: Motore di Generazione Strutturata Dinamica per Agenti LLM
XGrammar-2 funge da motore di generazione strutturata progettato per compiti agentici dinamici nei modelli linguistici di grandi dimensioni (LLM), inclusa l'invocazione di strumenti e i protocolli di risposta. Affronta le difficoltà derivanti da formati di output inconsistenti sia tra le richieste che all'interno di esse. Tra i notevoli progressi figurano TagDispatch per la distribuzione strutturale flessibile e Cross-Grammar Cache per il riutilizzo di cache a livello di sottostruttura. Ulteriori miglioramenti includono una cache adattiva di maschere di token basata su Earley, compilazione just-in-time e compressione degli stati di ripetizione. I risultati sperimentali indicano che raggiunge una compilazione oltre 6 volte più veloce rispetto ai motori precedenti.
Fatti principali
- 1. XGrammar-2 è un motore di generazione strutturata per carichi di lavoro agentici dinamici.
- 2. Supporta il cambio di struttura attivato da tag e il riutilizzo granulare tra richieste.
- 3. TagDispatch consente la distribuzione strutturale dinamica.
- 4. Cross-Grammar Cache permette il riutilizzo di cache a livello di sottostruttura tra grammatiche.
- 5. Utilizza una cache adattiva di maschere di token basata su Earley.
- 6. La compilazione just-in-time e la compressione degli stati di ripetizione migliorano l'efficienza.
- 7. Gli esperimenti mostrano una compilazione oltre 6 volte più veloce rispetto ai motori precedenti.
- 8. Il motore è pensato per agenti LLM moderni con esigenze di generazione strutturata dinamica.
Entità
Istituzioni
- arXiv