Nuova ricerca propone un metodo di calibrazione per controllare la distillabilità dei LLM per la sicurezza dell'IA
Uno studio recente presenta una tecnica di calibrazione post-hoc che consente di gestire la distillabilità di un modello linguistico di grandi dimensioni attraverso il fine-tuning per rinforzo. La ricerca indaga varie insidie nella distillazione della conoscenza, come il rumore di coda, l'instabilità off-policy e il divario insegnante-studente, che possono portare a fallimenti nella distillazione. Questi problemi causano allucinazioni eccessivamente sicure, collasso dell'autocorrezione e degrado della decodifica locale durante il processo di addestramento. L'obiettivo proposto integra l'utilità del compito, l'ancoraggio KL e la ricompensa di calibrazione tra tokenizer, rendendo la distillabilità un meccanismo di sicurezza praticabile per i modelli fondazionali. Mentre la distillazione della conoscenza mira a trasferire le capacità da modelli più grandi a quelli più piccoli, può fallire in modo imprevedibile e presentare rischi di perdita del modello. Questo lavoro collega il trasferimento efficace insegnante-studente con la protezione del modello durante il dispiegamento. Il documento è disponibile come arXiv:2604.18963v1 con un tipo di annuncio incrociato.
Fatti principali
- La ricerca propone un metodo di calibrazione post-hoc per il controllo della distillabilità dei LLM
- Il metodo utilizza il fine-tuning per rinforzo (RFT) per la calibrazione
- Lo studio identifica trappole della distillazione: rumore di coda, instabilità off-policy, divario insegnante-studente
- Le trappole causano allucinazioni eccessivamente sicure, collasso dell'autocorrezione, degrado della decodifica locale
- L'obiettivo combina utilità del compito, ancoraggio KL e ricompensa di calibrazione tra tokenizer
- Rende la distillabilità una leva di sicurezza pratica per i modelli fondazionali
- La distillazione della conoscenza trasferisce capacità dai LLM a studenti più piccoli
- Il documento è disponibile come arXiv:2604.18963v1 con tipo di annuncio incrociato
Entità
—