Frost Training migliora le prestazioni di LLM-as-a-Judge

ai-technology · 2026-05-28

Un nuovo metodo chiamato Frost Training migliora l'ottimizzazione delle politiche basata su Monte Carlo per compiti di LLM-as-a-Judge, in particolare i Cross-Entropy Games. La tecnica sfrutta il gradiente della funzione di ricompensa nello spazio di embedding, un segnale precedentemente utilizzato nella tecnica di jailbreaking Greedy Coordinate Gradient (GCG). Per la prima volta, questo gradiente viene applicato per potenziare l'addestramento del modello. La validazione tramite addestramento GRPO per il riempimento a massima verosimiglianza mostra che Frost Training migliora la capacità del modello di generare output con punteggi elevati, raggiungendo punteggi massimi più alti in un contesto best-of-k con maggiore velocità. La ricerca è pubblicata su arXiv.

Fatti principali

Frost Training è un metodo per migliorare l'ottimizzazione delle politiche basata su Monte Carlo.
Si rivolge a una famiglia di compiti LLM-as-a-Judge chiamati Cross-Entropy Games.
Il metodo sfrutta il gradiente della funzione di ricompensa nello spazio di embedding.
Questo gradiente era stato precedentemente utilizzato nella tecnica di jailbreaking GCG.
È la prima dimostrazione dell'uso di questo gradiente per l'addestramento del modello.
La validazione ha utilizzato l'addestramento GRPO per il riempimento a massima verosimiglianza.
Frost Training produce punteggi massimi più alti in contesti best-of-k.
Il metodo aumenta la velocità di raggiungimento di output con punteggi elevati.

Frost Training migliora le prestazioni di LLM-as-a-Judge

Fatti principali

Entità

Istituzioni

Fonti