Apprendimento per Rinforzo Curricolare Consapevole dei Requisiti per la Generazione di Codice con LLM
Un nuovo approccio chiamato Apprendimento per Rinforzo Curricolare Consapevole dei Requisiti (RACRL) viene proposto per migliorare la generazione di codice da parte di modelli linguistici di grandi dimensioni (LLM). I metodi CRL esistenti soffrono di percezione della difficoltà disallineata, mancanza di ottimizzazione della difficoltà dei requisiti e strategie di campionamento subottimali. RACRL affronta questi problemi incorporando la difficoltà dei requisiti nel processo di addestramento. Il metodo utilizza uno stimatore di difficoltà consapevole dei requisiti e un programmatore curricolare che regola l'addestramento in base alla complessità dei requisiti. Esperimenti su benchmark come HumanEval e MBPP mostrano che RACRL supera i metodi CRL di base e gli LLM ottimizzati, raggiungendo tassi di successo più elevati. Il lavoro è pubblicato su arXiv (2605.00433) e affronta la sfida dei requisiti di programmazione sempre più complessi.
Fatti principali
- Il paper arXiv 2605.00433 propone l'Apprendimento per Rinforzo Curricolare Consapevole dei Requisiti (RACRL) per la generazione di codice con LLM.
- I metodi CRL esistenti hanno percezione della difficoltà dei requisiti disallineata, assenza di ottimizzazione della difficoltà dei requisiti e campionamento curricolare subottimale.
- RACRL utilizza uno stimatore di difficoltà consapevole dei requisiti e un programmatore curricolare.
- Esperimenti su HumanEval e MBPP mostrano che RACRL supera i CRL di base e gli LLM ottimizzati.
- Il metodo affronta la sfida dei requisiti di programmazione sempre più complessi.
- La generazione di codice mira a generare automaticamente codice sorgente a partire da requisiti di programmazione.
- La generazione di codice basata su LLM ha attirato l'attenzione di accademia e industria.
- Il paper proviene da arXiv, un server di preprint.
Entità
Istituzioni
- arXiv