Pipeline Multi-Agente MDIA Supera ChatGPT per Clinici su HealthBench
Un team di ricercatori ha presentato MDIA (Multi-agent Diagnostic Intelligence Agent), un grafo di ragionamento clinico a 7 nodi con instradamento specialistico. Questo sistema innovativo ha ottenuto un punteggio di 0,6272 sul benchmark completo HealthBench Professional (n=525) utilizzando OpenAI GPT-5.4-2026-03-05, superando ChatGPT per Clinici di 3,72 punti percentuali. I miglioramenti nelle prestazioni sono attribuiti al design dell'architettura e del motore, non all'ingegneria dei prompt. Le caratteristiche principali includono instradamento specialistico, conservazione del contesto multi-turno, gating di sicurezza dello stato farmacologico, ricerche filtrate per sito, sintesi sensibile alla lunghezza e maggiore affidabilità del motore. I risultati, pubblicati su arXiv, sottolineano che le prestazioni dei benchmark clinici agenziali dipendono sia dal modello di base che dall'architettura di orchestrazione.
Fatti principali
- MDIA è un agente di intelligenza diagnostica multi-agente implementato come grafo di ragionamento clinico a 7 nodi con instradamento specialistico.
- Testato sul benchmark completo HealthBench Professional (n=525) utilizzando un LLM non fine-tuned.
- Ha raggiunto 0,6272 con OpenAI GPT-5.4-2026-03-05.
- Ha superato ChatGPT per Clinici di OpenAI di 3,72 punti percentuali.
- Il miglioramento delle prestazioni è attribuito all'architettura del sistema, non all'ingegneria dei prompt.
- Caratteristiche architetturali chiave: instradamento specialistico, conservazione del contesto multi-turno, gating di sicurezza dello stato farmacologico, ricerca filtrata per sito, sintesi sensibile alla lunghezza, affidabilità a livello di motore.
- Risultati pubblicati su arXiv con ID 2605.24699.
- Lo studio supporta la visione che le prestazioni dei benchmark clinici agenziali sono influenzate sia dal modello di base che dall'architettura di orchestrazione.
Entità
Istituzioni
- OpenAI
- arXiv