GRLO: Apprendimento per Rinforzo Generalizzabile da Zero Interazioni in Ambienti Aperti
Un nuovo preprint su arXiv (2605.15464) introduce GRLO, un framework per l'apprendimento per rinforzo generalizzabile da zero in ambienti aperti. Lo studio affronta l'elevato costo computazionale del post-addestramento dei grandi modelli linguistici, in particolare nei compiti di ragionamento dove l'RL da ricompense verificabili (RLVR) ha dominato grazie a guadagni più consistenti. GRLO esplora se l'RL dal feedback umano (RLHF) possa generalizzare da un piccolo insieme di interazioni senza addestramento specifico per dominio, riducendo potenzialmente i requisiti di GPU. Il lavoro è un annuncio di tipo cross, indicando che potrebbe abbracciare più categorie. Non vengono menzionate istituzioni, artisti o luoghi specifici; il contenuto è puramente tecnico.
Fatti principali
- GRLO sta per Apprendimento per Rinforzo Generalizzabile in Ambienti Aperti da Zero.
- L'articolo è pubblicato su arXiv con ID 2605.15464.
- Confronta i paradigmi RLHF e RLVR per il post-addestramento dei LLM.
- RLVR ha dominato il post-addestramento orientato al ragionamento grazie all'efficienza.
- L'obiettivo è ridurre il calcolo GPU necessario per l'addestramento RL.
- Lo studio testa la generalizzazione da un piccolo insieme di interazioni.
- Il tipo di annuncio è cross.
- Non sono coinvolti soggetti umani, istituzioni o luoghi.
Entità
—