ARTFEED — Contemporary Art Intelligence

Trajel: Verifica delle Allucinazioni a Livello di Traiettoria nei Flussi di Lavoro Multi-Agente

ai-technology · 2026-05-26

Un nuovo dataset e framework di valutazione chiamato Trajel mira al rilevamento delle allucinazioni nei flussi di lavoro industriali multi-agente, concentrandosi sui passaggi intermedi piuttosto che solo sui risultati finali. Il framework introduce una tassonomia a cinque tipi di allucinazioni—fattuale, referenziale, logica, procedurale e basata sull'ambito—su tracce di agenti annotate da esperti da AssetOpsBench. Il benchmarking di modelli di rilevamento supervisionati a livello di sottoattività, traiettoria e contesto lungo rivela che i benchmark esistenti trascurano modalità di fallimento comuni, quasi la metà delle traiettorie allucinate coinvolge più tipi, e i rilevatori automatici con alta accuratezza binaria classificano ancora erroneamente i tipi sottili. Il lavoro è pubblicato su arXiv con identificatore 2605.24219.

Fatti principali

  • Trajel è un dataset e framework di valutazione per allucinazioni a livello di traiettoria.
  • Si concentra sui flussi di lavoro industriali multi-agente.
  • Il framework utilizza una tassonomia a cinque tipi di allucinazioni: fattuale, referenziale, logica, procedurale e basata sull'ambito.
  • Le tracce di agenti annotate da esperti provengono da AssetOpsBench.
  • I modelli di rilevamento supervisionati sono confrontati a livello di sottoattività, traiettoria e contesto lungo.
  • I benchmark esistenti trascurano modalità di fallimento comuni.
  • Quasi la metà delle traiettorie allucinate coinvolge più tipi di allucinazioni.
  • I rilevatori automatici con alta accuratezza binaria classificano ancora erroneamente i tipi sottili.

Entità

Istituzioni

  • arXiv
  • AssetOpsBench

Fonti