MedMemoryBench: Benchmarking della Memoria AI per Agenti Sanitari Personalizzati

ai-technology · 2026-05-13

MedMemoryBench è un benchmark innovativo volto a valutare le funzioni di memoria negli agenti AI progettati per l'assistenza sanitaria personalizzata. Colma una lacuna negli attuali benchmark che enfatizzano principalmente dialoghi a dominio aperto invece di scenari medici critici. Originato dalle esigenze di un agente di gestione sanitaria di alto livello che serve milioni di utenti, MedMemoryBench impiega un approccio collaborativo uomo-AI per generare percorsi medici autentici a lungo termine utilizzando modelli di pazienti sintetici clinicamente rilevanti. Il dataset comprende circa 2.000 sessioni e 16.000 turni di interazione. Inoltre, presenta un protocollo di valutazione in streaming che valuta la memoria in tempo reale mentre la traiettoria viene sviluppata, allontanandosi dai metodi di valutazione statica convenzionali.

Fatti principali

MedMemoryBench valuta la memoria degli agenti nell'assistenza sanitaria personalizzata
I benchmark esistenti si concentrano su conversazioni quotidiane a dominio aperto
Motivato dalle esigenze produttive di un agente di gestione sanitaria con decine di milioni di utenti
Utilizza un pipeline collaborativo uomo-AI per sintetizzare traiettorie mediche
Basato su archetipi di pazienti sintetici clinicamente fondati
Il dataset include circa 2.000 sessioni e 16.000 turni di interazione
Introduce un protocollo di valutazione in streaming 'valuta-mentre-costruisci'
Pubblicato su arXiv con ID 2605.11814

MedMemoryBench: Benchmarking della Memoria AI per Agenti Sanitari Personalizzati

Fatti principali

Entità

Istituzioni

Fonti