ABRA: Nuovo benchmark testa agenti AI nei flussi di lavoro radiologici
ABRA ha introdotto un nuovo benchmark specificamente progettato per valutare gli agenti AI nei flussi di lavoro radiologici, che richiede l'uso del visualizzatore OHIF e del server DICOM Orthanc. Il benchmark include 21 strumenti di chiamata a funzione per attività come navigazione tra slice, windowing e annotazione, comprendendo 655 attività generate programmaticamente che variano in difficoltà e tipologia. Queste attività derivano da fonti tra cui LIDC-IDRI, Duke Breast Cancer MRI e NLST New-Lesion LongCT. Il punteggio si basa su Pianificazione, Esecuzione e Risultato secondo Bluethgen et al. (2025). Dieci modelli hanno dimostrato almeno l'89% di Esecuzione e lo studio è pubblicato su arXiv come 2605.11224v1.
Fatti principali
- ABRA è un benchmark per agenti radiologici che richiede la navigazione del visualizzatore OHIF e del server DICOM Orthanc
- 21 strumenti di chiamata a funzione sono utilizzati per attività come navigazione tra slice, windowing e annotazione
- 655 attività generate programmaticamente su tre livelli di difficoltà e otto tipologie
- Attività provenienti da LIDC-IDRI, Duke Breast Cancer MRI e NLST New-Lesion LongCT
- Punteggio basato su Pianificazione, Esecuzione e Risultato (Bluethgen et al., 2025)
- Dieci modelli (cinque a pesi chiusi, cinque a pesi aperti) raggiungono almeno l'89% di Esecuzione
- Pubblicato su arXiv come 2605.11224v1
- Il benchmark affronta le limitazioni dei benchmark medici esistenti che utilizzano immagini pre-selezionate
Entità
Istituzioni
- arXiv
- OHIF
- Orthanc
- LIDC-IDRI
- Duke Breast Cancer MRI
- NLST New-Lesion LongCT