ASTOR: Apprendimento per Rinforzo Multi-Compito Guidato dall'Utilità per LLM di Codice

publication · 2026-05-09

Un nuovo framework chiamato ASTOR (multi-tASk code reinforcement learning via uTility-driven coORdination) affronta le limitazioni dell'apprendimento per rinforzo multi-compito per i grandi modelli linguistici di codice. Proposto in arXiv:2605.06111, ASTOR introduce l'utilità del compito—un segnale che cattura il potenziale di apprendimento di ciascun compito e la sinergia tra compiti—per guidare l'addestramento. Comprende due moduli: un modulo di Scheduling dei Dati Gerarchico Basato sull'Utilità che alloca il budget di addestramento e prioritizza i prompt informativi, e un modulo di Ottimizzazione delle Politiche Adattiva Calibrata sull'Utilità. Questo approccio mira a superare l'inefficienza di distribuire specialisti separati per compiti specifici e le limitazioni dei metodi esistenti di RL multi-compito che trattano tutti i compiti di codifica in modo uniforme con curricula di dati fissi.

Fatti principali

ASTOR è un framework di apprendimento per rinforzo multi-compito per codice.
Utilizza il coordinamento guidato dall'utilità.
L'utilità del compito cattura il potenziale di apprendimento e la sinergia tra compiti.
Due moduli: scheduling dei dati e ottimizzazione delle politiche.
Affronta le limitazioni dei curricula di dati fissi nell'RL multi-compito.
Pubblicato su arXiv con ID 2605.06111.
Mira a ridurre i costi di distribuzione di specialisti separati per compiti specifici.
Il tipo di annuncio è cross.

ASTOR: Apprendimento per Rinforzo Multi-Compito Guidato dall'Utilità per LLM di Codice

Fatti principali

Entità

Istituzioni

Fonti