ARTFEED — Contemporary Art Intelligence

ROPD: Distillazione On-Policy Basata su Rubriche per l'Allineamento degli LLM

ai-technology · 2026-05-11

I ricercatori hanno introdotto ROPD, un framework per la distillazione on-policy basata su rubriche (OPD) che sostituisce i logit dell'insegnante con rubriche semantiche strutturate per migliorare l'allineamento del modello. Derivando rubriche specifiche per prompt da confronti tra output dell'insegnante e dello studente, ROPD valuta i rollout dello studente per un miglioramento on-policy. Questo metodo facilita l'OPD in ambienti black-box dove sono accessibili solo le risposte dell'insegnante. ROPD ha dimostrato di superare le sofisticate tecniche OPD basate su logit nella maggior parte delle situazioni, ottenendo fino a 10 volte di miglioramento nell'efficienza del campionamento. Il framework funge da alternativa versatile e black-box-friendly all'OPD basata su logit, stabilendo una baseline semplice ma robusta per la distillazione scalabile sia in LLM proprietari che open-source. Il codice è accessibile su arXiv.

Fatti principali

  • ROPD è un framework di distillazione on-policy basato su rubriche.
  • Utilizza rubriche semantiche strutturate invece dei logit dell'insegnante.
  • Le rubriche sono indotte da contrasti insegnante-studente.
  • ROPD valuta i rollout dello studente per l'ottimizzazione on-policy.
  • Supera i metodi OPD avanzati basati su logit nella maggior parte degli scenari.
  • Ottiene fino a 10 volte di guadagno nell'efficienza del campionamento.
  • Abilita l'OPD in scenari black-box.
  • Codice disponibile su arXiv.

Entità

Istituzioni

  • arXiv

Fonti