B-PASTE: Esecuzione Speculativa Guidata da Pattern con Consapevolezza del Beam per Agenti LLM con Vincoli di Risorse
Un nuovo articolo di ricerca introduce B-PASTE, un'estensione di Pattern-Aware Speculative Tool Execution (PASTE) progettata per ottimizzare le prestazioni degli agenti LLM. Gli agenti LLM operano attraverso cicli intervallati di ragionamento e azione, dove le dipendenze seriali tra i passi di ragionamento e le chiamate agli strumenti creano problemi di latenza e tempi di inattività del modello. Mentre PASTE affrontava questo problema speculando sulle future invocazioni di strumenti basandosi su pattern di flusso di controllo e flusso di dati, rimaneva centrato sugli strumenti e limitato a invocazioni individuali. B-PASTE espande questo approccio speculando intere ipotesi di rami locali sotto stringenti vincoli di risorse. Il sistema mantiene un beam limitato di sottografi di esecuzione futuri, classificandoli in base alla riduzione attesa del percorso critico piuttosto che alla probabilità grezza di esecuzione. I prefissi di ramo ad alto valore vengono schedulati su risorse slack transitorie, modellando esplicitamente i vincoli di risorse. Questa estensione con consapevolezza del beam eleva la speculazione da singoli strumenti a rami futuri limitati, mirando a ridurre più efficacemente la latenza end-to-end. La ricerca è stata annunciata su arXiv con l'identificatore 2604.16469v1 come annuncio incrociato. Il lavoro si basa su ricerche precedenti che hanno identificato come le dipendenze seriali aumentino la latenza e lascino i modelli inattivi durante l'esecuzione degli strumenti.
Fatti principali
- B-PASTE è un'estensione con consapevolezza del beam di Pattern-Aware Speculative Tool Execution (PASTE)
- Gli agenti LLM eseguono cicli intervallati di ragionamento e azione con dipendenze seriali
- Le dipendenze seriali aumentano la latenza end-to-end e lasciano i modelli inattivi durante l'esecuzione degli strumenti
- PASTE specula sulle probabili future invocazioni di strumenti a partire da regolarità estratte di flusso di controllo e flusso di dati
- PASTE è centrato sugli strumenti e specula solo su invocazioni individuali piuttosto che su rami futuri limitati
- B-PASTE mantiene un beam limitato di sottografi di esecuzione futuri
- B-PASTE classifica i sottografi in base alla riduzione attesa del percorso critico piuttosto che alla probabilità grezza di esecuzione
- La ricerca è stata annunciata su arXiv con l'identificatore 2604.16469v1
Entità
Istituzioni
- arXiv