ARTFEED — Contemporary Art Intelligence

Sebastian Raschka Analizza i Modelli Linguistici di Ragionamento e la Pipeline di Addestramento di DeepSeek R1

publication · 2026-04-14

In un articolo di Sebastian Raschka, vengono esplorate quattro strategie per migliorare le capacità di ragionamento nei grandi modelli linguistici (LLM). La specializzazione degli LLM è prevista in crescita nel 2024, con un'accelerazione anticipata nel 2025. I modelli di ragionamento sono particolarmente efficaci per compiti intricati che richiedono passaggi intermedi. L'articolo mette in evidenza DeepSeek R1, che comprende DeepSeek-R1-Zero, DeepSeek-R1 e DeepSeek-R1-Distill. DeepSeek-R1-Zero, utilizzando il modello 671B DeepSeek-V3 del dicembre 2024, si è basato esclusivamente sull'apprendimento per rinforzo. Al contrario, DeepSeek-R1 ha incorporato la messa a punto supervisionata, mentre DeepSeek-R1-Distill si è concentrato sul perfezionamento di modelli più piccoli come Llama e Qwen. Le quattro tecniche dei modelli di ragionamento includono lo scaling al momento dell'inferenza, l'apprendimento per rinforzo puro, la messa a punto supervisionata combinata con l'apprendimento per rinforzo, e la messa a punto supervisionata pura/distillazione. DeepSeek-R1 viene valutato rispetto all'o1 di OpenAI, evidenziandone l'efficienza e la licenza MIT. Alternative convenienti come Sky-T1 e TinyZero sono anche discusse, insieme al concetto di 'journey learning'.

Fatti principali

  • Sebastian Raschka ha scritto un articolo sui modelli linguistici di ragionamento.
  • Il campo degli LLM ha visto una crescente specializzazione nel 2024, con un'accelerazione prevista nel 2025.
  • I modelli di ragionamento sono LLM specializzati per compiti complessi che richiedono passaggi intermedi.
  • DeepSeek R1 include tre varianti: R1-Zero, R1 e R1-Distill.
  • DeepSeek-R1-Zero ha utilizzato l'apprendimento per rinforzo puro con ricompense di accuratezza e formato.
  • DeepSeek-R1 è stato costruito su R1-Zero con ulteriori fasi di SFT e RL.
  • DeepSeek-R1-Distill ha messo a punto modelli più piccoli come Llama e Qwen sui dati SFT.
  • Vengono delineati quattro approcci principali per costruire modelli di ragionamento.

Entità

Artisti

  • Sebastian Raschka

Istituzioni

  • DeepSeek
  • OpenAI
  • Meta
  • LeetCode

Fonti