F^3A: Potatura dei Token Visivi Senza Addestramento per Modelli Linguistici Multimodali

publication · 2026-05-20

Un recente studio pubblicato su arXiv (2605.16359) presenta F^3A, un router progettato per la potatura dei token visivi nei modelli visione-linguaggio senza richiedere addestramento. Questa tecnica affronta il problema di determinare il numero necessario di token visivi man mano che i modelli multimodali si espandono, gestendo anche la loro allocazione all'interno di un budget prestabilito. A differenza delle attuali strategie di potatura senza addestramento che si basano su proxy una tantum come l'attenzione del decoder o la similarità visiva, F^3A concettualizza la potatura dei token visivi come una ricerca di evidenze condizionata dal compito, particolarmente utile per alta compressione e varie dimensioni del modello. Funziona prima che il modello linguistico elabori i token immagine, creando segnali leggeri condizionati dalla domanda e abbinandoli ai token della griglia visiva utilizzando testine di rilevamento sparse congelate, gestendo così un budget fisso di token visivi attraverso una localizzazione approssimativa delle evidenze. Gli autori affermano che questo metodo è superiore per scenari che richiedono una compressione significativa.

Fatti principali

ID articolo: arXiv:2605.16359
Titolo: Quanti Token Visivi Servono ai Modelli Linguistici Multimodali? Scaling della Potatura dei Token Visivi con F^3A
F^3A è un router senza addestramento per la potatura dei token visivi
Opera prima che il modello linguistico consumi i token immagine
Utilizza segnali leggeri condizionati dalla domanda
Abbina i segnali ai token della griglia visiva tramite testine di rilevamento sparse congelate
Alloca un budget fisso di token visivi attraverso una localizzazione approssimativa delle evidenze
Inquadra la potatura come ricerca di evidenze condizionata dal compito

F^3A: Potatura dei Token Visivi Senza Addestramento per Modelli Linguistici Multimodali

Fatti principali

Entità

Istituzioni

Fonti