ARTFEED — Contemporary Art Intelligence

Ottimizzazione delle Politiche per Lista per il Post-Addestramento di LLM

publication · 2026-05-09

Uno studio recente pubblicato su arXiv (2605.06139) presenta l'Ottimizzazione delle Politiche per Lista (LPO), una tecnica volta a migliorare il post-addestramento dei grandi modelli linguistici attraverso l'apprendimento per rinforzo che utilizza ricompense verificabili. I ricercatori identificano un quadro geometrico condiviso tra gli attuali approcci di gradiente politico basati su gruppi: questi metodi stabiliscono implicitamente una distribuzione target sul simplesso delle risposte e vi tendono utilizzando approssimazioni del primo ordine. Al contrario, LPO gestisce esplicitamente questa proiezione target confinando l'obiettivo RL prossimale al simplesso delle risposte e minimizzando accuratamente la divergenza. Questo quadro garantisce miglioramenti consistenti sull'obiettivo di lista, mostrando caratteristiche limitate, a somma zero e autocorrettive.

Fatti principali

  • Articolo arXiv 2605.06139
  • Introduce l'Ottimizzazione delle Politiche per Lista (LPO)
  • Si concentra su RLVR per il post-addestramento di LLM
  • Rivela la struttura geometrica nel gradiente politico basato su gruppi
  • Utilizza la proiezione target sul simplesso delle risposte
  • Fornisce miglioramento monotono
  • Proprietà limitate, a somma zero e autocorrettive

Entità

Istituzioni

  • arXiv

Fonti