CREDIT: Un Nuovo Metodo per l'Auto-Distillazione On-Policy nei Modelli Linguistici
Un nuovo articolo su arXiv (2605.11613) introduce CREDIT (Contrastive REward from DIsTillation), un metodo per l'auto-distillazione on-policy nei modelli linguistici. Gli autori analizzano le ricompense a livello di token prodotte dall'auto-distillazione, mostrando che corrispondono a incrementi di filtraggio bayesiano la cui somma equivale all'informazione mutua puntuale (pMI) tra risposta e feedback dato l'input. Scompongono la log-probabilità del teacher lungo l'asse dell'input per distinguere il ragionamento specifico dell'input dalle scorciatoie generiche dell'input. CREDIT mira a migliorare l'assegnazione del credito utilizzando ricompense contrastive.
Fatti principali
- Articolo arXiv:2605.11613
- Tipo di annuncio: cross
- Paradigma di auto-distillazione on-policy
- Le ricompense dei token sono incrementi di filtraggio bayesiano
- La somma equivale all'informazione mutua puntuale (pMI)
- La pMI può essere aumentata da ragionamento specifico dell'input o scorciatoie generiche dell'input
- Propone CREDIT (Contrastive REward from DIsTillation)
- Scompone la log-probabilità del teacher lungo l'asse dell'input
Entità
Istituzioni
- arXiv