Introdotto Metodo di Distillazione On-Policy per LLM

publication · 2026-05-25

Un nuovo articolo su arXiv (2605.23493) presenta EDGE-OPD, un metodo di distillazione on-policy per modelli linguistici di grandi dimensioni. La distillazione on-policy (OPD) migliora le capacità dei LLM senza deriva distributiva. La distillazione on-policy self-distillation (OPSD) utilizza un singolo modello come studente e insegnante, fornendo un contesto privilegiato assente al momento dell'inferenza. Tuttavia, le informazioni privilegiate possono causare cambiamenti comportamentali indesiderati. EDGE-OPD affronta questo problema interiorizzando il contesto privilegiato con tecniche guidate dall'evidenza.

Fatti principali

1. ID articolo: arXiv:2605.23493
2. Metodo: EDGE-OPD
3. Focus: Distillazione On-Policy per LLM
4. OPSD utilizza un singolo modello come studente e insegnante
5. Il contesto privilegiato include persona, fatto privato, soluzione elaborata
6. Sfida: le informazioni privilegiate possono modificare il ragionamento e degradare le capacità
7. Obiettivo: addestrare sul comportamento desiderato, non sugli effetti collaterali
8. Pubblicato su arXiv

Introdotto Metodo di Distillazione On-Policy per LLM

Fatti principali

Entità

Istituzioni

Fonti