GRLO: Apprendimento per Rinforzo Generalizzabile da Zero Interazioni in Ambienti Aperti

ai-technology · 2026-05-18

Un nuovo preprint su arXiv (2605.15464) introduce GRLO, un framework per l'apprendimento per rinforzo generalizzabile da zero in ambienti aperti. Lo studio affronta l'elevato costo computazionale del post-addestramento dei grandi modelli linguistici, in particolare nei compiti di ragionamento dove l'RL da ricompense verificabili (RLVR) ha dominato grazie a guadagni più consistenti. GRLO esplora se l'RL dal feedback umano (RLHF) possa generalizzare da un piccolo insieme di interazioni senza addestramento specifico per dominio, riducendo potenzialmente i requisiti di GPU. Il lavoro è un annuncio di tipo cross, indicando che potrebbe abbracciare più categorie. Non vengono menzionate istituzioni, artisti o luoghi specifici; il contenuto è puramente tecnico.

Fatti principali

GRLO sta per Apprendimento per Rinforzo Generalizzabile in Ambienti Aperti da Zero.
L'articolo è pubblicato su arXiv con ID 2605.15464.
Confronta i paradigmi RLHF e RLVR per il post-addestramento dei LLM.
RLVR ha dominato il post-addestramento orientato al ragionamento grazie all'efficienza.
L'obiettivo è ridurre il calcolo GPU necessario per l'addestramento RL.
Lo studio testa la generalizzazione da un piccolo insieme di interazioni.
Il tipo di annuncio è cross.
Non sono coinvolti soggetti umani, istituzioni o luoghi.

Entità

—

Fonti

arXiv cs.AI — 2026-05-18