Il benchmark ICRL4AHT testa l'apprendimento per rinforzo in-context per il teamwork ad-hoc

other · 2026-05-26

Un nuovo benchmark chiamato ICRL4AHT è stato sviluppato da ricercatori, basato su un'implementazione JAX ad alta produttività di Overcooked-V2, per valutare l'Apprendimento per Rinforzo In-Context (ICRL) in contesti di Teamwork Ad-Hoc (AHT). Questo benchmark presenta una suite variegata di compagni di squadra che include sia strategie RL che euristiche, consentendo variazioni controllate di training e test. Offre inoltre una pipeline riproducibile per generare compagni di squadra, raccogliere storie di apprendimento, costruire dataset e condurre valutazioni online su più episodi. Lo studio ha testato Algorithm Distillation (AD) e Decision-Pretrained Transformer (DPT) su milioni di transizioni. I risultati indicano notevoli limitazioni: a differenza delle loro prestazioni in contesti a singolo agente, questi metodi faticano a coordinarsi con partner sconosciuti, sottolineando le difficoltà nell'implementare ICRL in AHT.

Fatti principali

Il benchmark ICRL4AHT è basato su un'implementazione JAX ad alta produttività di Overcooked-V2
Il benchmark include una suite ampia e diversificata di compagni di squadra che spazia tra politiche RL ed euristiche
Consente variazioni controllate di train-test
Fornisce una pipeline riproducibile end-to-end per la generazione di compagni di squadra, la raccolta di storie di apprendimento, la costruzione di dataset e la valutazione online multi-episodio
Valutati Algorithm Distillation (AD) e Decision-Pretrained Transformer (DPT)
Valutati su milioni di transizioni
I baselines non riescono a coordinarsi efficacemente con partner sconosciuti
Lo studio evidenzia le limitazioni di ICRL nel Teamwork Ad-Hoc

Il benchmark ICRL4AHT testa l'apprendimento per rinforzo in-context per il teamwork ad-hoc

Fatti principali

Entità

Istituzioni

Fonti