La distillazione Branch-Merge migliora l'accuratezza di TinyR1-32B-Preview
Una nuova tecnica in due fasi chiamata distillazione Branch-Merge è stata sviluppata dai ricercatori per comprimere grandi modelli linguistici migliorandone l'accuratezza. La fase iniziale, nota come Branch, coinvolge un modello insegnante significativo (DeepSeek-R1) che distilla la conoscenza in modelli studenti specializzati attraverso un fine-tuning supervisionato specifico per dominio. Successivamente, la fase Merge integra questi modelli studenti, facilitando il trasferimento di conoscenza tra domini e migliorando la generalizzazione. Il nuovo modello fuso, TinyR1-32B-Preview, supera le prestazioni di DeepSeek-R1-Distill-Qwen-32B su vari benchmark. Questo metodo supera efficacemente le carenze degli attuali approcci di distillazione e transfer learning che faticano a mantenere un'elevata accuratezza. Il documento di ricerca è disponibile su arXiv con ID 2503.04872.
Fatti principali
- La distillazione Branch-Merge ha due fasi: Branch e Merge.
- DeepSeek-R1 è utilizzato come modello insegnante.
- DeepSeek-R1-Distill-Qwen-32B è il modello studente.
- TinyR1-32B-Preview è il modello fuso risultante.
- TinyR1-32B-Preview supera DeepSeek-R1-Distill-Qwen-32B.
- Il metodo migliora la compressione del modello mantenendo le prestazioni.
- I metodi esistenti come la distillazione del modello e il transfer learning spesso non riescono a raggiungere un'elevata accuratezza.
- Il documento è arXiv:2503.04872.
Entità
Istituzioni
- arXiv