ARTFEED — Contemporary Art Intelligence

RealUserSim: Simulazione Utente Basata su Dati Reali Migliora la Fedeltà del Benchmarking degli Agenti

ai-technology · 2026-05-22

RealUserSim è un nuovo framework progettato per migliorare l'accuratezza delle simulazioni utente basate su LLM per la valutazione degli agenti. I simulatori convenzionali soffrono di limitazioni dovute a un Soffitto Formalistico, raggiungendo solo tassi di corrispondenza stilistica del 6-8% rispetto a individui reali, insieme ad Amplificazione Direttiva che produce comportamenti esagerati. Utilizzando dati comportamentali genuini, RealUserSim deriva 7.275 profili eseguibili da oltre 14.000 interazioni umane-LLM reali nel dataset WildChat. Un benchmark di fedeltà (PT3) ha valutato 600 conversazioni in oltre 71 domini, rivelando che le simulazioni basate su dati reali migliorano i tassi di corrispondenza dal 24,2% al 45,3% in cinque dimensioni comportamentali. Progressi significativi nel realismo sono stati osservati nelle valutazioni degli agenti su TauBench con sei modelli simulatori. Questa ricerca è disponibile su arXiv, ID 2605.20204.

Fatti principali

  • RealUserSim è il primo framework di simulazione utente basato su dati comportamentali reali.
  • I simulatori LLM tradizionali hanno un Soffitto Formalistico del 6-8% nei tassi di corrispondenza stilistica.
  • L'Amplificazione Direttiva causa estremi comportamentali innaturali nelle simulazioni artigianali.
  • 7.275 profili comportamentali eseguibili sono stati estratti da oltre 14.000 conversazioni WildChat.
  • Il benchmark PT3 valuta la fedeltà su 600 conversazioni in oltre 71 domini.
  • La simulazione basata su dati reali aumenta il tasso di corrispondenza dal 24,2% al 45,3%.
  • La valutazione degli agenti utilizza TauBench con sei modelli simulatori.
  • Nel benchmark di fedeltà sono implementati controlli anti-perdita.

Entità

Istituzioni

  • arXiv
  • WildChat
  • TauBench

Fonti