LiteLVLM: Potatura dei Token Senza Addestramento per un Efficiente Grounding dei Pixel nei Modelli Visione-Linguaggio

ai-technology · 2026-05-14

Un nuovo approccio chiamato LiteLVLM è stato sviluppato dai ricercatori, offrendo una tecnica di potatura dei token guidata dal testo e senza addestramento, volta a migliorare l'inferenza del grounding dei pixel all'interno di grandi modelli visione-linguaggio. Questa strategia affronta il carico computazionale associato ai token visivi invertendo la classifica della similarità visivo-testuale di CLIP. Ciò consente di preservare i token che comprendono le aree di riferimento, recuperando anche token di contesto per garantire una netta separazione tra primo piano e sfondo. Esperimenti approfonditi convalidano l'efficacia del metodo.

Fatti principali

1. LiteLVLM è una strategia di potatura dei token senza addestramento.
2. Si concentra sui compiti di grounding dei pixel in grandi modelli visione-linguaggio.
3. Il metodo inverte la classifica della similarità visivo-testuale di CLIP.
4. Mantiene i token visivi che coprono le regioni di riferimento.
5. Recupera token di contesto per la separazione primo piano-sfondo.
6. L'approccio affronta il sovraccarico computazionale derivante dai token visivi.
7. La ricerca è pubblicata su arXiv con ID 2605.13178.
8. Il metodo è guidato dal testo.

LiteLVLM: Potatura dei Token Senza Addestramento per un Efficiente Grounding dei Pixel nei Modelli Visione-Linguaggio

Fatti principali

Entità

Istituzioni

Fonti