VideoSeeker: Prompt Visivi per la Comprensione Video a Livello di Istanza

ai-technology · 2026-05-18

Un articolo di ricerca introduce VideoSeeker, un nuovo paradigma per la comprensione video a livello di istanza che utilizza prompt visivi invece di prompt testuali. L'approccio integra il ragionamento agentivo con compiti video, consentendo ai modelli di percepire e recuperare proattivamente segmenti video rilevanti. L'articolo affronta i limiti degli attuali LVLM nella localizzazione spazio-temporale precisa, dove i prompt testuali non forniscono riferimenti spaziali e temporali accurati. VideoSeeker mira a migliorare l'esperienza utente incentrando il ragionamento sul contenuto visivo piuttosto che sul linguaggio. Il lavoro è pubblicato su arXiv con ID 2605.16079.

Fatti principali

VideoSeeker è un nuovo paradigma per la comprensione video a livello di istanza tramite prompt visivi.
Integra il ragionamento agentivo con compiti di comprensione video a livello di istanza.
L'approccio consente ai modelli di percepire e recuperare proattivamente segmenti video rilevanti.
Affronta le sfide nella localizzazione spazio-temporale precisa a livello di istanza.
I metodi esistenti si basano su prompt testuali che hanno difficoltà con i riferimenti spaziali e temporali.
Gli approcci attuali disaccoppiano la percezione visiva dal ragionamento linguistico.
L'articolo è pubblicato su arXiv con ID 2605.16079.

VideoSeeker: Prompt Visivi per la Comprensione Video a Livello di Istanza

Fatti principali

Entità

Istituzioni

Fonti