ABRA: Nuovo benchmark testa agenti AI nei flussi di lavoro radiologici

other · 2026-05-13

ABRA ha introdotto un nuovo benchmark specificamente progettato per valutare gli agenti AI nei flussi di lavoro radiologici, che richiede l'uso del visualizzatore OHIF e del server DICOM Orthanc. Il benchmark include 21 strumenti di chiamata a funzione per attività come navigazione tra slice, windowing e annotazione, comprendendo 655 attività generate programmaticamente che variano in difficoltà e tipologia. Queste attività derivano da fonti tra cui LIDC-IDRI, Duke Breast Cancer MRI e NLST New-Lesion LongCT. Il punteggio si basa su Pianificazione, Esecuzione e Risultato secondo Bluethgen et al. (2025). Dieci modelli hanno dimostrato almeno l'89% di Esecuzione e lo studio è pubblicato su arXiv come 2605.11224v1.

Fatti principali

ABRA è un benchmark per agenti radiologici che richiede la navigazione del visualizzatore OHIF e del server DICOM Orthanc
21 strumenti di chiamata a funzione sono utilizzati per attività come navigazione tra slice, windowing e annotazione
655 attività generate programmaticamente su tre livelli di difficoltà e otto tipologie
Attività provenienti da LIDC-IDRI, Duke Breast Cancer MRI e NLST New-Lesion LongCT
Punteggio basato su Pianificazione, Esecuzione e Risultato (Bluethgen et al., 2025)
Dieci modelli (cinque a pesi chiusi, cinque a pesi aperti) raggiungono almeno l'89% di Esecuzione
Pubblicato su arXiv come 2605.11224v1
Il benchmark affronta le limitazioni dei benchmark medici esistenti che utilizzano immagini pre-selezionate

Entità

Istituzioni

arXiv
OHIF
Orthanc
LIDC-IDRI
Duke Breast Cancer MRI
NLST New-Lesion LongCT

Fonti

arXiv cs.AI — 2026-05-13