La distillazione Branch-Merge migliora l'accuratezza di TinyR1-32B-Preview

ai-technology · 2026-04-30

Una nuova tecnica in due fasi chiamata distillazione Branch-Merge è stata sviluppata dai ricercatori per comprimere grandi modelli linguistici migliorandone l'accuratezza. La fase iniziale, nota come Branch, coinvolge un modello insegnante significativo (DeepSeek-R1) che distilla la conoscenza in modelli studenti specializzati attraverso un fine-tuning supervisionato specifico per dominio. Successivamente, la fase Merge integra questi modelli studenti, facilitando il trasferimento di conoscenza tra domini e migliorando la generalizzazione. Il nuovo modello fuso, TinyR1-32B-Preview, supera le prestazioni di DeepSeek-R1-Distill-Qwen-32B su vari benchmark. Questo metodo supera efficacemente le carenze degli attuali approcci di distillazione e transfer learning che faticano a mantenere un'elevata accuratezza. Il documento di ricerca è disponibile su arXiv con ID 2503.04872.

Fatti principali

La distillazione Branch-Merge ha due fasi: Branch e Merge.
DeepSeek-R1 è utilizzato come modello insegnante.
DeepSeek-R1-Distill-Qwen-32B è il modello studente.
TinyR1-32B-Preview è il modello fuso risultante.
TinyR1-32B-Preview supera DeepSeek-R1-Distill-Qwen-32B.
Il metodo migliora la compressione del modello mantenendo le prestazioni.
I metodi esistenti come la distillazione del modello e il transfer learning spesso non riescono a raggiungere un'elevata accuratezza.
Il documento è arXiv:2503.04872.

La distillazione Branch-Merge migliora l'accuratezza di TinyR1-32B-Preview

Fatti principali

Entità

Istituzioni

Fonti