Il Ruolo Non Monotonico della Difficoltà dei Campioni in RLVR per LLM

ai-technology · 2026-05-28

Un nuovo preprint arXiv (2605.28388) indaga il ruolo meccanicistico della difficoltà dei campioni nell'Apprendimento per Rinforzo con Ricompensa Verificabile (RLVR) per modelli linguistici di grandi dimensioni (LLM). Lo studio rileva che la difficoltà dei campioni ha un effetto non monotonico: i problemi facili e di media difficoltà producono i maggiori miglioramenti nel ragionamento, mentre i problemi eccessivamente difficili forniscono segnali di apprendimento deboli, inducono comportamenti degenerati come la ripetizione di risposte o la saltazione di calcoli necessari, e possono degradare le capacità preesistenti. Utilizzando Autoencoder Sparsi Temporali (T-SAE), gli autori analizzano le dinamiche interne delle caratteristiche, rivelando che i problemi facili rafforzano i percorsi di risposta diretta e di calcolo di base. La ricerca si concentra su compiti di matematica e programmazione.

Fatti principali

Lo studio esamina RLVR per LLM
La difficoltà dei campioni ha un effetto non monotonico
I problemi facili e medi producono i maggiori miglioramenti
I problemi eccessivamente difficili causano segnali deboli e comportamenti degenerati
I comportamenti degenerati includono ripetizione di risposte e saltazione di calcoli
I problemi difficili possono degradare le capacità preesistenti
Autoencoder Sparsi Temporali (T-SAE) utilizzati per l'analisi interna
Focus su compiti di matematica e programmazione

Il Ruolo Non Monotonico della Difficoltà dei Campioni in RLVR per LLM

Fatti principali

Entità

Istituzioni

Fonti