ARTFEED — Contemporary Art Intelligence

ATLAS: Una Singola Parola per il Ragionamento Visivo Agenziale e Latente

ai-technology · 2026-05-16

I ricercatori propongono ATLAS, un framework che utilizza una singola 'parola' discreta chiamata token funzionale per combinare il ragionamento visivo agenziale e latente. Il ragionamento agenziale tramite chiamate a codice o strumenti soffre di latenza di cambio contesto, mentre il ragionamento latente con embedding apprendibili manca di generalizzazione dei compiti ed è difficile da addestrare con parallelizzazione autoregressiva. ATLAS affronta queste limitazioni associando ogni token funzionale a un'operazione visiva interiorizzata che non richiede supervisione visiva. Il framework mira a unificare i punti di forza di entrambi gli approcci senza i loro svantaggi. L'articolo è disponibile su arXiv con identificatore 2605.15198.

Fatti principali

  • ATLAS è un framework per il ragionamento visivo.
  • Utilizza una singola 'parola' discreta chiamata token funzionale.
  • Il token funzionale funge sia da operazione agenziale che da unità di ragionamento visivo latente.
  • Il ragionamento agenziale comporta latenza di cambio contesto dovuta all'esecuzione esterna.
  • Il ragionamento latente manca di generalizzazione dei compiti ed è difficile da addestrare con parallelizzazione autoregressiva.
  • Ogni token funzionale è associato a un'operazione visiva interiorizzata.
  • Il framework non richiede supervisione visiva.
  • L'articolo è pubblicato su arXiv con ID 2605.15198.

Entità

Istituzioni

  • arXiv

Fonti