ARTFEED — Contemporary Art Intelligence

ReTool-Video: Agenti Video Ricorsivi con Uso di Strumenti e Ancoraggio Meta-Aumentato

other · 2026-05-14

Un nuovo articolo su arXiv ha presentato ReTool-Video, un framework progettato per un agente video che utilizza strumenti in modo ricorsivo per migliorare la comprensione video. Questo approccio affronta due problemi principali degli agenti video esistenti: una vasta gamma di strumenti che non forniscono le operazioni dettagliate necessarie per un ragionamento complesso, e uno spazio di azione di base che riduce le intenzioni di alto livello a semplici funzioni strumentali. Per risolvere questi problemi, gli autori hanno creato la MetaAug-Video Tool Library (MVTL), con 134 strumenti in totale: 26 strumenti core per l'elaborazione multimodale generale e 108 meta strumenti per vari compiti come filtraggio e formattazione. MVTL consente un accesso potenziato ai dati video strutturati, favorendo un miglior ragionamento e risposta a domande. L'articolo è disponibile su arXiv con l'identificatore 2605.13228.

Fatti principali

  • L'articolo introduce ReTool-Video, un framework per agenti video ricorsivi con uso di strumenti.
  • Affronta le limitazioni degli agenti video esistenti: spazio strumentale grossolano e spazio di azione piatto.
  • Propone la MetaAug-Video Tool Library (MVTL) con 134 strumenti.
  • MVTL include 26 strumenti di base e 108 meta strumenti.
  • Gli strumenti supportano filtraggio, aggregazione, riordinamento, formattazione e altre operazioni.
  • Il framework mira a migliorare il ragionamento temporale, la comprensione cross-modale e la risposta a domande.
  • L'articolo è disponibile su arXiv con ID 2605.13228.
  • Pubblicato come annuncio cross-type.

Entità

Istituzioni

  • arXiv

Fonti