ASTOR: Apprendimento per Rinforzo Multi-Compito Guidato dall'Utilità per LLM di Codice
Un nuovo framework chiamato ASTOR (multi-tASk code reinforcement learning via uTility-driven coORdination) affronta le limitazioni dell'apprendimento per rinforzo multi-compito per i grandi modelli linguistici di codice. Proposto in arXiv:2605.06111, ASTOR introduce l'utilità del compito—un segnale che cattura il potenziale di apprendimento di ciascun compito e la sinergia tra compiti—per guidare l'addestramento. Comprende due moduli: un modulo di Scheduling dei Dati Gerarchico Basato sull'Utilità che alloca il budget di addestramento e prioritizza i prompt informativi, e un modulo di Ottimizzazione delle Politiche Adattiva Calibrata sull'Utilità. Questo approccio mira a superare l'inefficienza di distribuire specialisti separati per compiti specifici e le limitazioni dei metodi esistenti di RL multi-compito che trattano tutti i compiti di codifica in modo uniforme con curricula di dati fissi.
Fatti principali
- ASTOR è un framework di apprendimento per rinforzo multi-compito per codice.
- Utilizza il coordinamento guidato dall'utilità.
- L'utilità del compito cattura il potenziale di apprendimento e la sinergia tra compiti.
- Due moduli: scheduling dei dati e ottimizzazione delle politiche.
- Affronta le limitazioni dei curricula di dati fissi nell'RL multi-compito.
- Pubblicato su arXiv con ID 2605.06111.
- Mira a ridurre i costi di distribuzione di specialisti separati per compiti specifici.
- Il tipo di annuncio è cross.
Entità
Istituzioni
- arXiv