ReTool-Video: Agenti Video Ricorsivi con Uso di Strumenti e Ancoraggio Meta-Aumentato
Un nuovo articolo su arXiv ha presentato ReTool-Video, un framework progettato per un agente video che utilizza strumenti in modo ricorsivo per migliorare la comprensione video. Questo approccio affronta due problemi principali degli agenti video esistenti: una vasta gamma di strumenti che non forniscono le operazioni dettagliate necessarie per un ragionamento complesso, e uno spazio di azione di base che riduce le intenzioni di alto livello a semplici funzioni strumentali. Per risolvere questi problemi, gli autori hanno creato la MetaAug-Video Tool Library (MVTL), con 134 strumenti in totale: 26 strumenti core per l'elaborazione multimodale generale e 108 meta strumenti per vari compiti come filtraggio e formattazione. MVTL consente un accesso potenziato ai dati video strutturati, favorendo un miglior ragionamento e risposta a domande. L'articolo è disponibile su arXiv con l'identificatore 2605.13228.
Fatti principali
- L'articolo introduce ReTool-Video, un framework per agenti video ricorsivi con uso di strumenti.
- Affronta le limitazioni degli agenti video esistenti: spazio strumentale grossolano e spazio di azione piatto.
- Propone la MetaAug-Video Tool Library (MVTL) con 134 strumenti.
- MVTL include 26 strumenti di base e 108 meta strumenti.
- Gli strumenti supportano filtraggio, aggregazione, riordinamento, formattazione e altre operazioni.
- Il framework mira a migliorare il ragionamento temporale, la comprensione cross-modale e la risposta a domande.
- L'articolo è disponibile su arXiv con ID 2605.13228.
- Pubblicato come annuncio cross-type.
Entità
Istituzioni
- arXiv