ARTFEED — Contemporary Art Intelligence

Il benchmark ICRL4AHT testa l'apprendimento per rinforzo in-context per il teamwork ad-hoc

other · 2026-05-26

Un nuovo benchmark chiamato ICRL4AHT è stato sviluppato da ricercatori, basato su un'implementazione JAX ad alta produttività di Overcooked-V2, per valutare l'Apprendimento per Rinforzo In-Context (ICRL) in contesti di Teamwork Ad-Hoc (AHT). Questo benchmark presenta una suite variegata di compagni di squadra che include sia strategie RL che euristiche, consentendo variazioni controllate di training e test. Offre inoltre una pipeline riproducibile per generare compagni di squadra, raccogliere storie di apprendimento, costruire dataset e condurre valutazioni online su più episodi. Lo studio ha testato Algorithm Distillation (AD) e Decision-Pretrained Transformer (DPT) su milioni di transizioni. I risultati indicano notevoli limitazioni: a differenza delle loro prestazioni in contesti a singolo agente, questi metodi faticano a coordinarsi con partner sconosciuti, sottolineando le difficoltà nell'implementare ICRL in AHT.

Fatti principali

  • Il benchmark ICRL4AHT è basato su un'implementazione JAX ad alta produttività di Overcooked-V2
  • Il benchmark include una suite ampia e diversificata di compagni di squadra che spazia tra politiche RL ed euristiche
  • Consente variazioni controllate di train-test
  • Fornisce una pipeline riproducibile end-to-end per la generazione di compagni di squadra, la raccolta di storie di apprendimento, la costruzione di dataset e la valutazione online multi-episodio
  • Valutati Algorithm Distillation (AD) e Decision-Pretrained Transformer (DPT)
  • Valutati su milioni di transizioni
  • I baselines non riescono a coordinarsi efficacemente con partner sconosciuti
  • Lo studio evidenzia le limitazioni di ICRL nel Teamwork Ad-Hoc

Entità

Istituzioni

  • arXiv

Fonti