Agent^2 RL-Bench introdotto come benchmark per l'apprendimento per rinforzo guidato da agenti LLM nel post-addestramento

publication · 2026-04-14

Agent^2 RL-Bench rappresenta un nuovo benchmark progettato per valutare se gli agenti basati su grandi modelli linguistici possano progettare autonomamente pipeline complete di apprendimento per rinforzo per migliorare i modelli di base. Questa capacità è significativa perché l'apprendimento per rinforzo nel post-addestramento svolge un ruolo sempre più cruciale nell'allineamento e nella specializzazione dei modelli, mentre gli attuali benchmark rimangono prevalentemente statici. Il benchmark affronta questa lacuna con sei compiti distinti organizzati su tre livelli progressivi, che vanno dall'addestramento statico basato su regole all'apprendimento per rinforzo online a ciclo chiuso che coinvolge la raccolta di traiettorie. Ogni livello introduce requisiti strutturali non presenti nelle fasi precedenti. Agent^2 RL-Bench fornisce ambienti di lavoro isolati dotati di un'interfaccia di programmazione per la valutazione, strumentazione di runtime che registra ogni invio e revisione del codice, e analisi automatica post-hoc che genera report strutturati delle esecuzioni. Ciò consente la prima diagnosi automatizzata dei processi di post-addestramento guidati da agenti. L'introduzione del benchmark risponde all'osservazione che il fine-tuning supervisionato da solo spesso produce risultati solidi, lasciando l'ingegneria dell'apprendimento per rinforzo interattivo ampiamente non testata. Il lavoro è documentato nel preprint arXiv 2604.10547v1.

Fatti principali

Agent^2 RL-Bench è un benchmark per valutare il post-addestramento RL agentico.
Verifica se gli agenti LLM possono progettare, implementare ed eseguire autonomamente pipeline RL complete.
Il post-addestramento RL guida sempre più l'allineamento e la specializzazione dei modelli.
Gli attuali benchmark sono largamente statici, con il fine-tuning supervisionato che produce risultati solidi.
Il benchmark comprende sei compiti su tre livelli, dall'addestramento statico basato su regole all'RL online a ciclo chiuso.
Ogni livello aggiunge requisiti strutturali non imposti dai livelli precedenti.
Fornisce ambienti di lavoro isolati con API di valutazione e strumentazione di runtime.
L'analisi automatica post-hoc genera report strutturati delle esecuzioni per la diagnostica.

Entità

—

Fonti

arXiv cs.AI — 2026-04-14