Il framework IMAX migliora l'esplorazione in RLVR per il ragionamento LLM

ai-technology · 2026-05-12

Un nuovo approccio chiamato Information-Maximizing Augmented eXploration (IMAX) affronta il problema del collasso dell'entropia nell'apprendimento per rinforzo con ricompense verificabili (RLVR) per i grandi modelli linguistici (LLM). Mentre RLVR migliora l'accuratezza in singole esecuzioni, fatica ad ampliare la copertura su percorsi di ragionamento efficaci a causa di ricompense sparse e tempi di ragionamento prolungati. IMAX sviluppa un insieme di soft prefix che modificano la prior del modello base sui percorsi di ragionamento, fungendo da meccanismi di controllo regolabili per generare distribuzioni di rollout variabili dallo stesso modello fondamentale. Questo metodo elimina la necessità di apprendimento per rinforzo per promuovere l'esplorazione oltre il modello base. La ricerca è disponibile su arXiv con ID 2605.08817.

Fatti principali

Framework IMAX proposto per RLVR in compiti di ragionamento LLM
Affronta il fenomeno del collasso dell'entropia
Utilizza un pool di soft prefix come manopole di controllo addestrabili
Induce distribuzioni di rollout distinte dallo stesso modello backbone
Evita la dipendenza da RL per l'esplorazione
ID carta arXiv: 2605.08817
Pubblicato su arXiv

Il framework IMAX migliora l'esplorazione in RLVR per il ragionamento LLM

Fatti principali

Entità

Istituzioni

Fonti