ARTFEED — Contemporary Art Intelligence

Rollout Cards: Un Nuovo Standard per la Riproducibilità nella Ricerca sugli Agenti

publication · 2026-05-13

Uno studio recente pubblicato su arXiv introduce il concetto di 'rollout cards' come standard per la riproducibilità nella ricerca sugli agenti, affrontando il problema che i punteggi riportati spesso mascherano i registri effettivi dei rollout. I ricercatori hanno esaminato 50 repository di addestramento e valutazione ampiamente utilizzati, scoprendo che nessuno includeva fallimenti, errori o salti insieme ai punteggi principali. Hanno identificato 37 casi in cui variazioni nelle linee guida di segnalazione potrebbero alterare significativamente i tassi di successo dei compiti, i calcoli dei costi/token o le metriche temporali per prove fisse. Gli autori sostengono che l'attenzione dovrebbe essere sui registri dei rollout piuttosto che sui punteggi riportati come base per la riproducibilità. Le rollout cards fungono da pacchetti di pubblicazione che mantengono i registri dei rollout associati ai punteggi, consentendo un'ispezione e una verifica approfondite.

Fatti principali

  • Articolo su arXiv propone 'rollout cards' per la riproducibilità nella ricerca sugli agenti.
  • Audit di 50 repository ha rilevato che nessuno riporta fallimenti, errori o salti.
  • 37 casi documentati in cui le regole di segnalazione possono modificare drasticamente le metriche.
  • Le rollout cards preservano i registri dei rollout come unità di riproducibilità.

Entità

Istituzioni

  • arXiv

Fonti