ARTFEED — Contemporary Art Intelligence

Il framework ChromaFlow analizza il sovraccarico dell'orchestrazione degli agenti

other · 2026-05-16

Un nuovo studio introduce ChromaFlow, un framework di ragionamento autonomo potenziato da strumenti, per misurare il sovraccarico operativo negli agenti basati su modelli linguistici. Il framework utilizza esecuzione guidata da un pianificatore, strumenti specializzati e valutazione basata su telemetria. Sui compiti di validazione GAIA 2023 Livello-1, una baseline congelata ha raggiunto il 54,72% di accuratezza (29/53), mentre una configurazione di orchestrazione estesa è scesa al 50,94% (27/53) con un aumento di traceback, timeout e fallimenti degli strumenti. Valutazioni casuali di fumo hanno ottenuto 12/20 e 11/20. La ricerca evidenzia modalità di fallimento invisibili alle metriche di accuratezza finali.

Fatti principali

  • ChromaFlow è un framework di ragionamento autonomo potenziato da strumenti.
  • Utilizza esecuzione guidata da un pianificatore, uso di strumenti specializzati e valutazione basata su telemetria.
  • La valutazione è stata condotta sui compiti di validazione GAIA 2023 Livello-1.
  • La baseline congelata ha ottenuto 29/53 risposte corrette (54,72%).
  • La configurazione di orchestrazione estesa ha ottenuto 27/53 risposte corrette (50,94%).
  • La configurazione estesa ha aumentato traceback, eventi di timeout, menzioni di fallimenti degli strumenti, chiamate di linee token e stime di costo del log della campagna.
  • Due valutazioni casuali di fumo su 20 compiti hanno prodotto 12/20 e 11/20 risposte corrette.
  • Lo studio si concentra sulle modalità di fallimento operativo non visibili dalla sola accuratezza finale.

Entità

Fonti