ARTFEED — Contemporary Art Intelligence

DIVERT: Valutazione Efficiente di Agenti LLM tramite Simulazione Guidata dalla Diversità

ai-technology · 2026-04-25

Un nuovo framework chiamato DIVERT (Diversity-Induced Evaluation via Branching of Trajectories) mira a migliorare l'efficienza e la completezza della valutazione di agenti basati su grandi modelli linguistici (LLM) in ruoli a contatto con i clienti. Gli attuali metodi di valutazione si basano su rollout Monte Carlo lineari di conversazioni complete agente-utente, che sono computazionalmente dispendiosi poiché rigenerano ripetutamente gli stessi prefissi iniziali della conversazione e spesso perdono comportamenti rari degli utenti che portano a fallimenti profondi. DIVERT cattura l'intero stato agente-ambiente nei punti decisionali critici, consentendo di riprendere l'esecuzione da questi snapshot. Ciò permette il riutilizzo dei prefissi di conversazione condivisi, riducendo il calcolo ridondante. Da ogni giunzione, il framework si dirama per esplorare diversi comportamenti degli utenti, coprendo sistematicamente scenari rari. L'approccio è descritto come efficiente, basato su snapshot e guidato dalla copertura, progettato per l'esplorazione sistematica delle interazioni agente-utente. La ricerca è pubblicata su arXiv con identificatore 2604.21480.

Fatti principali

  • DIVERT sta per Diversity-Induced Evaluation via Branching of Trajectories.
  • È un framework per valutare agenti LLM in interazioni multi-turno.
  • La valutazione attuale utilizza rollout Monte Carlo lineari, che sono inefficienti.
  • DIVERT cattura lo stato agente-ambiente nei punti decisionali critici.
  • Riprende l'esecuzione da snapshot per riutilizzare i prefissi di conversazione condivisi.
  • Il framework si dirama da ogni giunzione per esplorare comportamenti rari degli utenti.
  • L'obiettivo è scoprire modalità di fallimento profonde derivanti da comportamenti rari degli utenti.
  • La ricerca è pubblicata su arXiv (2604.21480).

Entità

Istituzioni

  • arXiv

Fonti