Sebastian Raschka Analizza i Modelli Linguistici di Ragionamento e la Pipeline di Addestramento di DeepSeek R1

publication · 2026-04-14

In un articolo di Sebastian Raschka, vengono esplorate quattro strategie per migliorare le capacità di ragionamento nei grandi modelli linguistici (LLM). La specializzazione degli LLM è prevista in crescita nel 2024, con un'accelerazione anticipata nel 2025. I modelli di ragionamento sono particolarmente efficaci per compiti intricati che richiedono passaggi intermedi. L'articolo mette in evidenza DeepSeek R1, che comprende DeepSeek-R1-Zero, DeepSeek-R1 e DeepSeek-R1-Distill. DeepSeek-R1-Zero, utilizzando il modello 671B DeepSeek-V3 del dicembre 2024, si è basato esclusivamente sull'apprendimento per rinforzo. Al contrario, DeepSeek-R1 ha incorporato la messa a punto supervisionata, mentre DeepSeek-R1-Distill si è concentrato sul perfezionamento di modelli più piccoli come Llama e Qwen. Le quattro tecniche dei modelli di ragionamento includono lo scaling al momento dell'inferenza, l'apprendimento per rinforzo puro, la messa a punto supervisionata combinata con l'apprendimento per rinforzo, e la messa a punto supervisionata pura/distillazione. DeepSeek-R1 viene valutato rispetto all'o1 di OpenAI, evidenziandone l'efficienza e la licenza MIT. Alternative convenienti come Sky-T1 e TinyZero sono anche discusse, insieme al concetto di 'journey learning'.

Fatti principali

Sebastian Raschka ha scritto un articolo sui modelli linguistici di ragionamento.
Il campo degli LLM ha visto una crescente specializzazione nel 2024, con un'accelerazione prevista nel 2025.
I modelli di ragionamento sono LLM specializzati per compiti complessi che richiedono passaggi intermedi.
DeepSeek R1 include tre varianti: R1-Zero, R1 e R1-Distill.
DeepSeek-R1-Zero ha utilizzato l'apprendimento per rinforzo puro con ricompense di accuratezza e formato.
DeepSeek-R1 è stato costruito su R1-Zero con ulteriori fasi di SFT e RL.
DeepSeek-R1-Distill ha messo a punto modelli più piccoli come Llama e Qwen sui dati SFT.
Vengono delineati quattro approcci principali per costruire modelli di ragionamento.

Entità

Artisti

Sebastian Raschka

Istituzioni

DeepSeek
OpenAI
Meta
LeetCode

Fonti

Sebastian Raschka — 2025-02-05