Ottimizzazione delle Politiche per Lista per il Post-Addestramento di LLM
Uno studio recente pubblicato su arXiv (2605.06139) presenta l'Ottimizzazione delle Politiche per Lista (LPO), una tecnica volta a migliorare il post-addestramento dei grandi modelli linguistici attraverso l'apprendimento per rinforzo che utilizza ricompense verificabili. I ricercatori identificano un quadro geometrico condiviso tra gli attuali approcci di gradiente politico basati su gruppi: questi metodi stabiliscono implicitamente una distribuzione target sul simplesso delle risposte e vi tendono utilizzando approssimazioni del primo ordine. Al contrario, LPO gestisce esplicitamente questa proiezione target confinando l'obiettivo RL prossimale al simplesso delle risposte e minimizzando accuratamente la divergenza. Questo quadro garantisce miglioramenti consistenti sull'obiettivo di lista, mostrando caratteristiche limitate, a somma zero e autocorrettive.
Fatti principali
- Articolo arXiv 2605.06139
- Introduce l'Ottimizzazione delle Politiche per Lista (LPO)
- Si concentra su RLVR per il post-addestramento di LLM
- Rivela la struttura geometrica nel gradiente politico basato su gruppi
- Utilizza la proiezione target sul simplesso delle risposte
- Fornisce miglioramento monotono
- Proprietà limitate, a somma zero e autocorrettive
Entità
Istituzioni
- arXiv