ROPD: Distillazione On-Policy Basata su Rubriche per l'Allineamento degli LLM
I ricercatori hanno introdotto ROPD, un framework per la distillazione on-policy basata su rubriche (OPD) che sostituisce i logit dell'insegnante con rubriche semantiche strutturate per migliorare l'allineamento del modello. Derivando rubriche specifiche per prompt da confronti tra output dell'insegnante e dello studente, ROPD valuta i rollout dello studente per un miglioramento on-policy. Questo metodo facilita l'OPD in ambienti black-box dove sono accessibili solo le risposte dell'insegnante. ROPD ha dimostrato di superare le sofisticate tecniche OPD basate su logit nella maggior parte delle situazioni, ottenendo fino a 10 volte di miglioramento nell'efficienza del campionamento. Il framework funge da alternativa versatile e black-box-friendly all'OPD basata su logit, stabilendo una baseline semplice ma robusta per la distillazione scalabile sia in LLM proprietari che open-source. Il codice è accessibile su arXiv.
Fatti principali
- ROPD è un framework di distillazione on-policy basato su rubriche.
- Utilizza rubriche semantiche strutturate invece dei logit dell'insegnante.
- Le rubriche sono indotte da contrasti insegnante-studente.
- ROPD valuta i rollout dello studente per l'ottimizzazione on-policy.
- Supera i metodi OPD avanzati basati su logit nella maggior parte degli scenari.
- Ottiene fino a 10 volte di guadagno nell'efficienza del campionamento.
- Abilita l'OPD in scenari black-box.
- Codice disponibile su arXiv.
Entità
Istituzioni
- arXiv