ATLAS: Una Singola Parola per il Ragionamento Visivo Agenziale e Latente
I ricercatori propongono ATLAS, un framework che utilizza una singola 'parola' discreta chiamata token funzionale per combinare il ragionamento visivo agenziale e latente. Il ragionamento agenziale tramite chiamate a codice o strumenti soffre di latenza di cambio contesto, mentre il ragionamento latente con embedding apprendibili manca di generalizzazione dei compiti ed è difficile da addestrare con parallelizzazione autoregressiva. ATLAS affronta queste limitazioni associando ogni token funzionale a un'operazione visiva interiorizzata che non richiede supervisione visiva. Il framework mira a unificare i punti di forza di entrambi gli approcci senza i loro svantaggi. L'articolo è disponibile su arXiv con identificatore 2605.15198.
Fatti principali
- ATLAS è un framework per il ragionamento visivo.
- Utilizza una singola 'parola' discreta chiamata token funzionale.
- Il token funzionale funge sia da operazione agenziale che da unità di ragionamento visivo latente.
- Il ragionamento agenziale comporta latenza di cambio contesto dovuta all'esecuzione esterna.
- Il ragionamento latente manca di generalizzazione dei compiti ed è difficile da addestrare con parallelizzazione autoregressiva.
- Ogni token funzionale è associato a un'operazione visiva interiorizzata.
- Il framework non richiede supervisione visiva.
- L'articolo è pubblicato su arXiv con ID 2605.15198.
Entità
Istituzioni
- arXiv