Anchor Pipeline Mitiga la Deriva degli Artefatti nella Generazione di Benchmark per Agenti AI
Un nuovo pipeline di generazione di compiti chiamato Anchor è stato sviluppato dai ricercatori per affrontare il problema della deriva degli artefatti nei benchmark per agenti AI. Questo fenomeno si verifica quando istruzioni, ambienti, oracoli e verificatori sono prodotti attraverso processi scarsamente connessi, risultando in compiti inconsistenti o irrisolvibili. Anchor traduce le specifiche dei flussi di lavoro aziendali da esperti del settore in programmi di ottimizzazione vincolata, generando istruzioni in linguaggio naturale, configurazioni ambientali, soluzioni ground-truth validate da risolutori e verificatori basati sullo stato a partire da una specifica parametrica. Questo metodo garantisce sia coerenza che verificabilità, facilitando la scalabilità controllata della difficoltà per la valutazione degli agenti AI aziendali.
Fatti principali
- Anchor è un pipeline di generazione di compiti per benchmark di agenti AI.
- Mitiga la deriva degli artefatti nella creazione di ambienti e compiti.
- La deriva degli artefatti causa ambienti irrisolvibili, sfruttabili per ricompense o inconsistenti.
- Anchor utilizza programmi di ottimizzazione vincolata a partire da specifiche di esperti del settore.
- Produce congiuntamente istruzione, ambiente, soluzione e verificatore da una specifica.
- Modificando i parametri si ottengono nuovi compiti con difficoltà controllata.
- Il pipeline è mirato a compiti di operazioni aziendali.
- Il lavoro è pubblicato su arXiv con ID 2605.26321.
Entità
Istituzioni
- arXiv