ARTFEED — Contemporary Art Intelligence

MedMemoryBench: Benchmarking della Memoria AI per Agenti Sanitari Personalizzati

ai-technology · 2026-05-13

MedMemoryBench è un benchmark innovativo volto a valutare le funzioni di memoria negli agenti AI progettati per l'assistenza sanitaria personalizzata. Colma una lacuna negli attuali benchmark che enfatizzano principalmente dialoghi a dominio aperto invece di scenari medici critici. Originato dalle esigenze di un agente di gestione sanitaria di alto livello che serve milioni di utenti, MedMemoryBench impiega un approccio collaborativo uomo-AI per generare percorsi medici autentici a lungo termine utilizzando modelli di pazienti sintetici clinicamente rilevanti. Il dataset comprende circa 2.000 sessioni e 16.000 turni di interazione. Inoltre, presenta un protocollo di valutazione in streaming che valuta la memoria in tempo reale mentre la traiettoria viene sviluppata, allontanandosi dai metodi di valutazione statica convenzionali.

Fatti principali

  • MedMemoryBench valuta la memoria degli agenti nell'assistenza sanitaria personalizzata
  • I benchmark esistenti si concentrano su conversazioni quotidiane a dominio aperto
  • Motivato dalle esigenze produttive di un agente di gestione sanitaria con decine di milioni di utenti
  • Utilizza un pipeline collaborativo uomo-AI per sintetizzare traiettorie mediche
  • Basato su archetipi di pazienti sintetici clinicamente fondati
  • Il dataset include circa 2.000 sessioni e 16.000 turni di interazione
  • Introduce un protocollo di valutazione in streaming 'valuta-mentre-costruisci'
  • Pubblicato su arXiv con ID 2605.11814

Entità

Istituzioni

  • arXiv

Fonti