GLANCE: Esplorazione Guidata dalla Curiosità per Agenti VLM

ai-technology · 2026-05-07

Un nuovo framework chiamato GLANCE collega ragionamento ed esplorazione all'interno di agenti basati su modelli visione-linguaggio (VLM) utilizzando il divario tra previsioni verbali e verità visive come segnale di curiosità incorporato. Questo metodo supera le sfide del ragionamento passivo in compiti con ricompense scarse, consentendo agli agenti di cercare proattivamente nuove informazioni. GLANCE integra il modello linguistico dell'agente con rappresentazioni visive coerenti di una rete target in evoluzione, impiegando l'apprendimento per rinforzo per facilitare l'esplorazione. Questa ricerca è stata resa disponibile su arXiv con l'identificatore 2605.03782.

Fatti principali

1. GLANCE è un framework per agenti VLM che utilizza l'esplorazione guidata dalla curiosità.
2. Collega ragionamento ed esplorazione ancorando i modelli linguistici del mondo a rappresentazioni visive.
3. Il segnale di curiosità si basa sulla discrepanza tra previsione linguistica e realtà visiva.
4. Affronta compiti con ricompense scarse in ambienti visivi parzialmente osservabili.
5. Il framework utilizza l'apprendimento per rinforzo per l'esplorazione.
6. Pubblicato su arXiv con identificatore 2605.03782.

GLANCE: Esplorazione Guidata dalla Curiosità per Agenti VLM

Fatti principali

Entità

Istituzioni

Fonti