ARTFEED — Contemporary Art Intelligence

DARTS: Accelerare l'Apprendimento per Rinforzo dei LLM tramite Modellazione delle Traiettorie Sensibile alla Distribuzione

ai-technology · 2026-06-01

Un nuovo approccio chiamato DARTS (Distribution-Aware Active Rollout Trajectory Shaping) affronta le inefficienze nei processi di rollout nell'apprendimento per rinforzo per modelli linguistici estesi. Queste inefficienze derivano dalle distribuzioni a coda lunga delle lunghezze delle risposte, che i metodi precedenti hanno tentato di alleviare attraverso la schedulazione a livello di prompt delle code. DARTS affronta il problema fondamentale analizzando più precisamente le distribuzioni a coda lunga, individuando code lunghe intra-prompt che spesso includono verbosità non necessaria. Introduce una modellazione attiva della distribuzione per snellire le distribuzioni dei rollout, minimizzando così il sovraccarico causato dalle code. Ciò è ottenuto tramite una tecnica di campionamento delle traiettorie sensibile alla distribuzione che seleziona traiettorie da aree di esplorazione ridondanti per ogni prompt, insieme a una strategia di allocazione adattiva della ridondanza per ottimizzare la modellazione. La metodologia è descritta in un articolo disponibile su arXiv (2605.30859).

Fatti principali

  • DARTS sta per Distribution-Aware Active Rollout Trajectory Shaping
  • Mira ai colli di bottiglia dell'efficienza del rollout nell'apprendimento per rinforzo dei LLM
  • L'inefficienza è dovuta alla distribuzione a coda lunga della lunghezza delle risposte
  • I lavori esistenti usano la schedulazione a livello di prompt delle code
  • DARTS identifica code lunghe intra-prompt con verbosità inefficace
  • Usa la modellazione attiva della distribuzione per concisione e certezza
  • Include un meccanismo di campionamento delle traiettorie sensibile alla distribuzione
  • Include uno schema di allocazione adattiva della ridondanza
  • Articolo disponibile su arXiv con ID 2605.30859

Entità

Istituzioni

  • arXiv

Fonti