ARTFEED — Contemporary Art Intelligence

Il framework IMAX migliora l'esplorazione in RLVR per il ragionamento LLM

ai-technology · 2026-05-12

Un nuovo approccio chiamato Information-Maximizing Augmented eXploration (IMAX) affronta il problema del collasso dell'entropia nell'apprendimento per rinforzo con ricompense verificabili (RLVR) per i grandi modelli linguistici (LLM). Mentre RLVR migliora l'accuratezza in singole esecuzioni, fatica ad ampliare la copertura su percorsi di ragionamento efficaci a causa di ricompense sparse e tempi di ragionamento prolungati. IMAX sviluppa un insieme di soft prefix che modificano la prior del modello base sui percorsi di ragionamento, fungendo da meccanismi di controllo regolabili per generare distribuzioni di rollout variabili dallo stesso modello fondamentale. Questo metodo elimina la necessità di apprendimento per rinforzo per promuovere l'esplorazione oltre il modello base. La ricerca è disponibile su arXiv con ID 2605.08817.

Fatti principali

  • Framework IMAX proposto per RLVR in compiti di ragionamento LLM
  • Affronta il fenomeno del collasso dell'entropia
  • Utilizza un pool di soft prefix come manopole di controllo addestrabili
  • Induce distribuzioni di rollout distinte dallo stesso modello backbone
  • Evita la dipendenza da RL per l'esplorazione
  • ID carta arXiv: 2605.08817
  • Pubblicato su arXiv

Entità

Istituzioni

  • arXiv

Fonti