Reward Consapevole della Distribuzione per la Regressione LLM
Una nuova tecnica di apprendimento per rinforzo migliora la capacità dei grandi modelli linguistici di generare distribuzioni predittive migliori per compiti di regressione. Denominata Reward Consapevole della Distribuzione, questo metodo utilizza il Continuous Ranked Probability Score per valutare vari campioni decodificati come distribuzione empirica. Assegna credito in base al contributo marginale di ogni rollout alla qualità della distribuzione, incentivando previsioni non solo precise ma anche ben calibrate. Questa innovazione affronta le carenze degli obiettivi di addestramento tradizionali che si concentrano sull'ottimizzazione di stime puntuali, non riuscendo a garantire distribuzioni predittive calibrate.
Fatti principali
- Introdotto Reward Consapevole della Distribuzione per la regressione LLM
- Utilizza apprendimento per rinforzo on-policy
- Valuta più campioni decodificati come distribuzione predittiva empirica
- Impiega il Continuous Ranked Probability Score
- Assegna credito leave-one-out basato sul contributo marginale
- Mira a migliorare la calibrazione della distribuzione predittiva
- Affronta le limitazioni dell'ottimizzazione di stime puntuali
- Pubblicato su arXiv con ID 2605.20740
Entità
Istituzioni
- arXiv