Il benchmark ICRL4AHT testa l'apprendimento per rinforzo in-context per il teamwork ad-hoc
Un nuovo benchmark chiamato ICRL4AHT è stato sviluppato da ricercatori, basato su un'implementazione JAX ad alta produttività di Overcooked-V2, per valutare l'Apprendimento per Rinforzo In-Context (ICRL) in contesti di Teamwork Ad-Hoc (AHT). Questo benchmark presenta una suite variegata di compagni di squadra che include sia strategie RL che euristiche, consentendo variazioni controllate di training e test. Offre inoltre una pipeline riproducibile per generare compagni di squadra, raccogliere storie di apprendimento, costruire dataset e condurre valutazioni online su più episodi. Lo studio ha testato Algorithm Distillation (AD) e Decision-Pretrained Transformer (DPT) su milioni di transizioni. I risultati indicano notevoli limitazioni: a differenza delle loro prestazioni in contesti a singolo agente, questi metodi faticano a coordinarsi con partner sconosciuti, sottolineando le difficoltà nell'implementare ICRL in AHT.
Fatti principali
- Il benchmark ICRL4AHT è basato su un'implementazione JAX ad alta produttività di Overcooked-V2
- Il benchmark include una suite ampia e diversificata di compagni di squadra che spazia tra politiche RL ed euristiche
- Consente variazioni controllate di train-test
- Fornisce una pipeline riproducibile end-to-end per la generazione di compagni di squadra, la raccolta di storie di apprendimento, la costruzione di dataset e la valutazione online multi-episodio
- Valutati Algorithm Distillation (AD) e Decision-Pretrained Transformer (DPT)
- Valutati su milioni di transizioni
- I baselines non riescono a coordinarsi efficacemente con partner sconosciuti
- Lo studio evidenzia le limitazioni di ICRL nel Teamwork Ad-Hoc
Entità
Istituzioni
- arXiv