ARTFEED — Contemporary Art Intelligence

Anchor Pipeline Mitiga la Deriva degli Artefatti nella Generazione di Benchmark per Agenti AI

other · 2026-05-27

Un nuovo pipeline di generazione di compiti chiamato Anchor è stato sviluppato dai ricercatori per affrontare il problema della deriva degli artefatti nei benchmark per agenti AI. Questo fenomeno si verifica quando istruzioni, ambienti, oracoli e verificatori sono prodotti attraverso processi scarsamente connessi, risultando in compiti inconsistenti o irrisolvibili. Anchor traduce le specifiche dei flussi di lavoro aziendali da esperti del settore in programmi di ottimizzazione vincolata, generando istruzioni in linguaggio naturale, configurazioni ambientali, soluzioni ground-truth validate da risolutori e verificatori basati sullo stato a partire da una specifica parametrica. Questo metodo garantisce sia coerenza che verificabilità, facilitando la scalabilità controllata della difficoltà per la valutazione degli agenti AI aziendali.

Fatti principali

  • Anchor è un pipeline di generazione di compiti per benchmark di agenti AI.
  • Mitiga la deriva degli artefatti nella creazione di ambienti e compiti.
  • La deriva degli artefatti causa ambienti irrisolvibili, sfruttabili per ricompense o inconsistenti.
  • Anchor utilizza programmi di ottimizzazione vincolata a partire da specifiche di esperti del settore.
  • Produce congiuntamente istruzione, ambiente, soluzione e verificatore da una specifica.
  • Modificando i parametri si ottengono nuovi compiti con difficoltà controllata.
  • Il pipeline è mirato a compiti di operazioni aziendali.
  • Il lavoro è pubblicato su arXiv con ID 2605.26321.

Entità

Istituzioni

  • arXiv

Fonti