ScaleLogic: Il calcolo di addestramento RL scala come legge di potenza con la profondità di ragionamento nei LLM

ai-technology · 2026-05-09

Un nuovo framework sintetico chiamato ScaleLogic consente lo studio controllato di come il calcolo di addestramento del reinforcement learning (RL) scala con la difficoltà di ragionamento nei grandi modelli linguistici (LLM). Il framework controlla indipendentemente due assi: la profondità di pianificazione della dimostrazione (orizzonte) e l'espressività logica, che va dalla semplice implicazione alla logica del primo ordine con congiunzione, disgiunzione, negazione e quantificazione universale. Gli esperimenti rivelano che il calcolo di addestramento RL T segue una legge di potenza rispetto alla profondità di ragionamento D (T ∝ D^γ, R² > 0,99), e l'esponente di scala γ aumenta monotonicamente con l'espressività logica. Il lavoro, pubblicato su arXiv (2605.06638), fornisce un approccio sistematico per comprendere i miglioramenti del ragionamento basati su RL nei LLM.

Fatti principali

ScaleLogic è un framework sintetico di ragionamento logico per LLM.
Controlla due assi di difficoltà: profondità di pianificazione della dimostrazione ed espressività logica.
Le logiche supportate includono solo implicazione, congiunzione, disgiunzione, negazione e quantificazione universale.
Il calcolo di addestramento RL T scala come T ∝ D^γ con R² > 0,99.
L'esponente di scala γ aumenta con l'espressività logica.
L'articolo è disponibile su arXiv come 2605.06638.
Il framework affronta la mancanza di ambienti controllati per studiare la scala dell'addestramento RL.
Lo studio analizza sistematicamente come l'addestramento scala con la difficoltà del compito.

ScaleLogic: Il calcolo di addestramento RL scala come legge di potenza con la profondità di ragionamento nei LLM

Fatti principali

Entità

Istituzioni

Fonti