ROPD: Distillazione On-Policy Basata su Rubriche per l'Allineamento degli LLM

ai-technology · 2026-05-11

I ricercatori hanno introdotto ROPD, un framework per la distillazione on-policy basata su rubriche (OPD) che sostituisce i logit dell'insegnante con rubriche semantiche strutturate per migliorare l'allineamento del modello. Derivando rubriche specifiche per prompt da confronti tra output dell'insegnante e dello studente, ROPD valuta i rollout dello studente per un miglioramento on-policy. Questo metodo facilita l'OPD in ambienti black-box dove sono accessibili solo le risposte dell'insegnante. ROPD ha dimostrato di superare le sofisticate tecniche OPD basate su logit nella maggior parte delle situazioni, ottenendo fino a 10 volte di miglioramento nell'efficienza del campionamento. Il framework funge da alternativa versatile e black-box-friendly all'OPD basata su logit, stabilendo una baseline semplice ma robusta per la distillazione scalabile sia in LLM proprietari che open-source. Il codice è accessibile su arXiv.

Fatti principali

ROPD è un framework di distillazione on-policy basato su rubriche.
Utilizza rubriche semantiche strutturate invece dei logit dell'insegnante.
Le rubriche sono indotte da contrasti insegnante-studente.
ROPD valuta i rollout dello studente per l'ottimizzazione on-policy.
Supera i metodi OPD avanzati basati su logit nella maggior parte degli scenari.
Ottiene fino a 10 volte di guadagno nell'efficienza del campionamento.
Abilita l'OPD in scenari black-box.
Codice disponibile su arXiv.

ROPD: Distillazione On-Policy Basata su Rubriche per l'Allineamento degli LLM

Fatti principali

Entità

Istituzioni

Fonti