ARTFEED — Contemporary Art Intelligence

SkillEvolBench: Valutare l'Evoluzione delle Competenze degli LLM dall'Esperienza

other · 2026-05-26

I ricercatori hanno presentato SkillEvolBench, un benchmark diagnostico progettato per valutare la capacità degli agenti basati su grandi modelli linguistici (LLM) di convertire esperienze episodiche in competenze procedurali riutilizzabili. Questo benchmark comprende 180 compiti in sei ambienti agentici del mondo reale, categorizzati in famiglie di compiti condizionate dal ruolo che condividono procedure sottostanti. Gli agenti si impegnano in compiti di acquisizione, migliorano una libreria di competenze esterna con traiettorie compattate e feedback da verificatori, e successivamente affrontano compiti di deployment congelati che valutano cambi di contesto, scorciatoie avversarie e composizione. Confrontando l'evoluzione delle competenze auto-generata e con avvio curato con controlli senza competenze e con traiettorie grezze, SkillEvolBench distingue l'astrazione procedurale dalla capacità fondamentale, dalla conoscenza pregressa curata e dal riutilizzo diretto di tracce episodiche. Lo studio esamina dieci configurazioni di modello per determinare se le traiettorie episodiche accumulate possono essere distillate in competenze riutilizzabili.

Fatti principali

  • SkillEvolBench è un benchmark diagnostico per valutare l'evoluzione delle competenze degli LLM.
  • Contiene 180 compiti in sei ambienti agentici del mondo reale.
  • I compiti sono organizzati in famiglie di compiti condizionate dal ruolo con procedure latenti condivise.
  • Gli agenti apprendono da compiti di acquisizione e aggiornano una libreria di competenze esterna.
  • I compiti di deployment testano cambi di contesto, scorciatoie avversarie e composizione.
  • Il benchmark confronta l'evoluzione delle competenze auto-generata e con avvio curato rispetto ai controlli.
  • Vengono testate dieci configurazioni di modello.
  • Lo studio è stato pubblicato su arXiv con ID 2605.24117.

Entità

Istituzioni

  • arXiv

Fonti