Progressi dell'Apprendimento per Rinforzo nei Modelli di Ragionamento LLM

digital · 2026-04-14

Modelli di punta recenti come GPT-4.5 e Llama 4 hanno ricevuto risposte moderate a causa del loro addestramento convenzionale, privo di apprendimento per rinforzo esplicito per il ragionamento. Al contrario, concorrenti come xAI e Anthropic hanno integrato capacità di ragionamento, inclusi pulsanti 'pensiero' nelle loro interfacce Grok e Claude. Il modello di ragionamento o3 di OpenAI, rivelato in una diretta streaming del 16 aprile 2025, dimostra un potenziale di miglioramento significativo attraverso investimenti strategici in capacità di calcolo, utilizzando 10 volte più risorse di addestramento rispetto al suo predecessore o1. Ciò suggerisce che il semplice aumento delle dimensioni del modello e dei dati potrebbe essere prossimo ai suoi limiti. L'apprendimento per rinforzo con ricompense verificabili, come utilizzato da DeepSeek-R1, aggira i tradizionali modelli di ricompensa impiegando sistemi basati su regole per controlli di accuratezza e formato. L'algoritmo Group Relative Policy Optimization del team DeepSeek migliora l'efficienza computazionale eliminando il modello critico. Il ragionamento, definito come la capacità di un modello di produrre passaggi intermedi prima di una risposta finale, migliora accuratezza e risoluzione dei problemi. Si prevede che le future pipeline LLM standardizzeranno il post-addestramento focalizzato sul ragionamento.

Fatti principali

I modelli GPT-4.5 e Llama 4 sono stati addestrati senza apprendimento per rinforzo per il ragionamento.
Le interfacce xAI Grok e Anthropic Claude includono pulsanti 'pensiero' per capacità di ragionamento.
Il modello di ragionamento o3 di OpenAI ha utilizzato 10 volte più risorse di addestramento rispetto a o1.
DeepSeek-R1 ha utilizzato apprendimento per rinforzo con ricompense verificabili e l'algoritmo GRPO.
Il ragionamento negli LLM implica la produzione di passaggi intermedi, noto come ragionamento a catena di pensieri.
La diretta streaming di OpenAI che discuteva o3 si è svolta il 16 aprile 2025.
I sistemi di ricompensa basati su regole per DeepSeek-R1 includevano controlli di accuratezza e formato.
GRPO migliora l'efficienza rimuovendo il modello critico dalla configurazione dell'apprendimento per rinforzo.

Entità

Artisti

Sebastian Raschka, PhD

Istituzioni

OpenAI
xAI
Anthropic
DeepSeek
Ahead of AI

Fonti

Sebastian Raschka — 2025-04-19