ARTFEED — Contemporary Art Intelligence

ABRA: Nuovo benchmark testa agenti AI nei flussi di lavoro radiologici

other · 2026-05-13

ABRA ha introdotto un nuovo benchmark specificamente progettato per valutare gli agenti AI nei flussi di lavoro radiologici, che richiede l'uso del visualizzatore OHIF e del server DICOM Orthanc. Il benchmark include 21 strumenti di chiamata a funzione per attività come navigazione tra slice, windowing e annotazione, comprendendo 655 attività generate programmaticamente che variano in difficoltà e tipologia. Queste attività derivano da fonti tra cui LIDC-IDRI, Duke Breast Cancer MRI e NLST New-Lesion LongCT. Il punteggio si basa su Pianificazione, Esecuzione e Risultato secondo Bluethgen et al. (2025). Dieci modelli hanno dimostrato almeno l'89% di Esecuzione e lo studio è pubblicato su arXiv come 2605.11224v1.

Fatti principali

  • ABRA è un benchmark per agenti radiologici che richiede la navigazione del visualizzatore OHIF e del server DICOM Orthanc
  • 21 strumenti di chiamata a funzione sono utilizzati per attività come navigazione tra slice, windowing e annotazione
  • 655 attività generate programmaticamente su tre livelli di difficoltà e otto tipologie
  • Attività provenienti da LIDC-IDRI, Duke Breast Cancer MRI e NLST New-Lesion LongCT
  • Punteggio basato su Pianificazione, Esecuzione e Risultato (Bluethgen et al., 2025)
  • Dieci modelli (cinque a pesi chiusi, cinque a pesi aperti) raggiungono almeno l'89% di Esecuzione
  • Pubblicato su arXiv come 2605.11224v1
  • Il benchmark affronta le limitazioni dei benchmark medici esistenti che utilizzano immagini pre-selezionate

Entità

Istituzioni

  • arXiv
  • OHIF
  • Orthanc
  • LIDC-IDRI
  • Duke Breast Cancer MRI
  • NLST New-Lesion LongCT

Fonti