EnvScaler Framework Automatizza la Creazione di 191 Ambienti di Interazione con Strumenti per l'Addestramento di Agenti LLM
Un team di ricercatori ha introdotto EnvScaler, un sistema automatizzato progettato per creare ambienti scalabili per l'addestramento di agenti basati su grandi modelli linguistici. Questa innovazione affronta le sfide poste dall'accesso limitato a sistemi del mondo reale, dalle allucinazioni generate da ambienti simulati da LLM e dai problemi di scalabilità dei sandbox costruiti manualmente. EnvScaler è composto da due componenti principali: SkelBuilder, che genera strutture ambientali variate attraverso l'estrazione di argomenti, la modellazione logica e la valutazione della qualità, e ScenGenerator, che sviluppa numerosi scenari di attività e una validazione delle traiettorie basata su regole per ciascuna struttura. Finora, il sistema ha prodotto 191 ambienti unici e circa 7.000 scenari, facilitando l'addestramento dei modelli della serie Qwen3 tramite Fine-Tuning Supervisionato e Apprendimento per Rinforzo. Questo lavoro rappresenta un importante balzo in avanti nell'addestramento automatizzato di agenti attraverso simulazioni diversificate del mondo reale. I risultati sono stati pubblicati su arXiv con l'identificatore 2601.05808v2.
Fatti principali
- EnvScaler è un framework automatizzato per ambienti scalabili di interazione con strumenti tramite sintesi programmatica
- Il sistema affronta le limitazioni dell'accesso ristretto a sistemi reali, delle simulazioni LLM inclini ad allucinazioni e dei sandbox manuali difficili da scalare
- SkelBuilder costruisce strutture ambientali diversificate attraverso l'estrazione di argomenti, la modellazione logica e la valutazione della qualità
- ScenGenerator genera molteplici scenari di attività e funzioni di validazione delle traiettorie basate su regole per ciascun ambiente
- Il framework ha sintetizzato 191 ambienti e circa 7.000 scenari
- Questi ambienti sono stati applicati al Fine-Tuning Supervisionato e all'Apprendimento per Rinforzo per i modelli della serie Qwen3
- La ricerca è stata pubblicata su arXiv con l'identificatore 2601.05808v2
- Il tipo di annuncio era replace-cross
Entità
Istituzioni
- arXiv