Reward Consapevole della Distribuzione per la Regressione LLM

ai-technology · 2026-05-22

Una nuova tecnica di apprendimento per rinforzo migliora la capacità dei grandi modelli linguistici di generare distribuzioni predittive migliori per compiti di regressione. Denominata Reward Consapevole della Distribuzione, questo metodo utilizza il Continuous Ranked Probability Score per valutare vari campioni decodificati come distribuzione empirica. Assegna credito in base al contributo marginale di ogni rollout alla qualità della distribuzione, incentivando previsioni non solo precise ma anche ben calibrate. Questa innovazione affronta le carenze degli obiettivi di addestramento tradizionali che si concentrano sull'ottimizzazione di stime puntuali, non riuscendo a garantire distribuzioni predittive calibrate.

Fatti principali

Introdotto Reward Consapevole della Distribuzione per la regressione LLM
Utilizza apprendimento per rinforzo on-policy
Valuta più campioni decodificati come distribuzione predittiva empirica
Impiega il Continuous Ranked Probability Score
Assegna credito leave-one-out basato sul contributo marginale
Mira a migliorare la calibrazione della distribuzione predittiva
Affronta le limitazioni dell'ottimizzazione di stime puntuali
Pubblicato su arXiv con ID 2605.20740

Reward Consapevole della Distribuzione per la Regressione LLM

Fatti principali

Entità

Istituzioni

Fonti