Il Continuum della Perdita di Tsallis Collega RLVR e Stima della Densità nei Modelli di Ragionamento
Uno studio recente pubblicato su arXiv (2604.25907) presenta una famiglia di perdite J_Q che utilizza il q-logaritmo di Tsallis, collegando l'apprendimento per rinforzo da ricompense verificabili (RLVR) a q=0 e la log-verosimiglianza marginale su traiettorie latenti a q=1. I ricercatori dimostrano che tutte le varianti mantengono la stessa direzione del gradiente per esempio, differendo solo per un'amplificazione scalare P_θ^{-q} che regola le istanze indipendentemente dal tasso di apprendimento. Questa amplificazione risolve lo stallo del cold start: sotto flusso del gradiente, il polo di sfruttamento (q=0) necessita di un tempo Ω(1/p_0) per superare il cold start, mentre il polo di stima della densità (q=1) richiede Θ(log(1/p_0)). I valori intermedi di q bilanciano la velocità di fuga con la memorizzazione del rumore, offrendo una base teorica per adattare modelli di ragionamento a nuovi compiti utilizzando solo supervisione a livello di output.
Fatti principali
- L'articolo arXiv:2604.25907 propone la famiglia di perdite J_Q usando il q-logaritmo di Tsallis
- Interpola tra RLVR (q=0) e log-verosimiglianza marginale (q=1)
- Tutti i membri condividono la stessa direzione del gradiente per esempio
- L'amplificazione scalare P_θ^{-q} ripesa le istanze indipendentemente dal tasso di apprendimento
- Il polo di sfruttamento richiede tempo Ω(1/p_0) per uscire dal cold start
- Il polo di stima della densità esce in tempo Θ(log(1/p_0))
- I valori intermedi di q bilanciano la velocità di fuga con la memorizzazione del rumore
- Affronta lo stallo del cold start quando la probabilità di successo iniziale p_0 è piccola
Entità
Istituzioni
- arXiv