CutVerse Benchmark Testa Agenti AI su Compiti di Editing Multimediale
I ricercatori hanno introdotto CutVerse, un benchmark progettato per valutare agenti GUI autonomi in ambienti professionali di post-produzione multimediale. Il benchmark include dimostrazioni di esperti in sette applicazioni come Premiere Pro e Photoshop, coprendo 186 compiti complessi basati su flussi di lavoro autentici. Un parser leggero trasforma registrazioni dello schermo e log di interazione in traiettorie di azione strutturate. Le valutazioni mostrano che gli agenti esistenti raggiungono solo il 36,0% di successo nei compiti, evidenziando il divario nelle capacità dell'IA per i flussi di lavoro creativi.
Fatti principali
- CutVerse è un benchmark per valutare agenti GUI nella post-produzione multimediale.
- Copre 7 applicazioni professionali tra cui Premiere Pro e Photoshop.
- Il benchmark include 186 compiti complessi e di lunga durata.
- Un parser converte registrazioni dello schermo e log di interazione in traiettorie strutturate.
- Gli agenti esistenti raggiungono solo il 36,0% di successo in questi compiti.
- La ricerca è pubblicata su arXiv con ID 2605.19484.
- Il lavoro sottolinea le capacità dell'IA ancora poco esplorate nei flussi di lavoro creativi.
- Il benchmark si concentra su ambienti realistici di editing multimediale.
Entità
Istituzioni
- arXiv