Ottimizzazione delle Politiche per Lista per il Post-Addestramento di LLM

publication · 2026-05-09

Uno studio recente pubblicato su arXiv (2605.06139) presenta l'Ottimizzazione delle Politiche per Lista (LPO), una tecnica volta a migliorare il post-addestramento dei grandi modelli linguistici attraverso l'apprendimento per rinforzo che utilizza ricompense verificabili. I ricercatori identificano un quadro geometrico condiviso tra gli attuali approcci di gradiente politico basati su gruppi: questi metodi stabiliscono implicitamente una distribuzione target sul simplesso delle risposte e vi tendono utilizzando approssimazioni del primo ordine. Al contrario, LPO gestisce esplicitamente questa proiezione target confinando l'obiettivo RL prossimale al simplesso delle risposte e minimizzando accuratamente la divergenza. Questo quadro garantisce miglioramenti consistenti sull'obiettivo di lista, mostrando caratteristiche limitate, a somma zero e autocorrettive.

Fatti principali

Articolo arXiv 2605.06139
Introduce l'Ottimizzazione delle Politiche per Lista (LPO)
Si concentra su RLVR per il post-addestramento di LLM
Rivela la struttura geometrica nel gradiente politico basato su gruppi
Utilizza la proiezione target sul simplesso delle risposte
Fornisce miglioramento monotono
Proprietà limitate, a somma zero e autocorrettive

Ottimizzazione delle Politiche per Lista per il Post-Addestramento di LLM

Fatti principali

Entità

Istituzioni

Fonti