ARTFEED — Contemporary Art Intelligence

F^3A: Potatura dei Token Visivi Senza Addestramento per Modelli Linguistici Multimodali

publication · 2026-05-20

Un recente studio pubblicato su arXiv (2605.16359) presenta F^3A, un router progettato per la potatura dei token visivi nei modelli visione-linguaggio senza richiedere addestramento. Questa tecnica affronta il problema di determinare il numero necessario di token visivi man mano che i modelli multimodali si espandono, gestendo anche la loro allocazione all'interno di un budget prestabilito. A differenza delle attuali strategie di potatura senza addestramento che si basano su proxy una tantum come l'attenzione del decoder o la similarità visiva, F^3A concettualizza la potatura dei token visivi come una ricerca di evidenze condizionata dal compito, particolarmente utile per alta compressione e varie dimensioni del modello. Funziona prima che il modello linguistico elabori i token immagine, creando segnali leggeri condizionati dalla domanda e abbinandoli ai token della griglia visiva utilizzando testine di rilevamento sparse congelate, gestendo così un budget fisso di token visivi attraverso una localizzazione approssimativa delle evidenze. Gli autori affermano che questo metodo è superiore per scenari che richiedono una compressione significativa.

Fatti principali

  • ID articolo: arXiv:2605.16359
  • Titolo: Quanti Token Visivi Servono ai Modelli Linguistici Multimodali? Scaling della Potatura dei Token Visivi con F^3A
  • F^3A è un router senza addestramento per la potatura dei token visivi
  • Opera prima che il modello linguistico consumi i token immagine
  • Utilizza segnali leggeri condizionati dalla domanda
  • Abbina i segnali ai token della griglia visiva tramite testine di rilevamento sparse congelate
  • Alloca un budget fisso di token visivi attraverso una localizzazione approssimativa delle evidenze
  • Inquadra la potatura come ricerca di evidenze condizionata dal compito

Entità

Istituzioni

  • arXiv

Fonti