DARTS: Accelerare l'Apprendimento per Rinforzo dei LLM tramite Modellazione delle Traiettorie Sensibile alla Distribuzione
Un nuovo approccio chiamato DARTS (Distribution-Aware Active Rollout Trajectory Shaping) affronta le inefficienze nei processi di rollout nell'apprendimento per rinforzo per modelli linguistici estesi. Queste inefficienze derivano dalle distribuzioni a coda lunga delle lunghezze delle risposte, che i metodi precedenti hanno tentato di alleviare attraverso la schedulazione a livello di prompt delle code. DARTS affronta il problema fondamentale analizzando più precisamente le distribuzioni a coda lunga, individuando code lunghe intra-prompt che spesso includono verbosità non necessaria. Introduce una modellazione attiva della distribuzione per snellire le distribuzioni dei rollout, minimizzando così il sovraccarico causato dalle code. Ciò è ottenuto tramite una tecnica di campionamento delle traiettorie sensibile alla distribuzione che seleziona traiettorie da aree di esplorazione ridondanti per ogni prompt, insieme a una strategia di allocazione adattiva della ridondanza per ottimizzare la modellazione. La metodologia è descritta in un articolo disponibile su arXiv (2605.30859).
Fatti principali
- DARTS sta per Distribution-Aware Active Rollout Trajectory Shaping
- Mira ai colli di bottiglia dell'efficienza del rollout nell'apprendimento per rinforzo dei LLM
- L'inefficienza è dovuta alla distribuzione a coda lunga della lunghezza delle risposte
- I lavori esistenti usano la schedulazione a livello di prompt delle code
- DARTS identifica code lunghe intra-prompt con verbosità inefficace
- Usa la modellazione attiva della distribuzione per concisione e certezza
- Include un meccanismo di campionamento delle traiettorie sensibile alla distribuzione
- Include uno schema di allocazione adattiva della ridondanza
- Articolo disponibile su arXiv con ID 2605.30859
Entità
Istituzioni
- arXiv