LiteLVLM: Potatura dei Token Senza Addestramento per un Efficiente Grounding dei Pixel nei Modelli Visione-Linguaggio
Un nuovo approccio chiamato LiteLVLM è stato sviluppato dai ricercatori, offrendo una tecnica di potatura dei token guidata dal testo e senza addestramento, volta a migliorare l'inferenza del grounding dei pixel all'interno di grandi modelli visione-linguaggio. Questa strategia affronta il carico computazionale associato ai token visivi invertendo la classifica della similarità visivo-testuale di CLIP. Ciò consente di preservare i token che comprendono le aree di riferimento, recuperando anche token di contesto per garantire una netta separazione tra primo piano e sfondo. Esperimenti approfonditi convalidano l'efficacia del metodo.
Fatti principali
- 1. LiteLVLM è una strategia di potatura dei token senza addestramento.
- 2. Si concentra sui compiti di grounding dei pixel in grandi modelli visione-linguaggio.
- 3. Il metodo inverte la classifica della similarità visivo-testuale di CLIP.
- 4. Mantiene i token visivi che coprono le regioni di riferimento.
- 5. Recupera token di contesto per la separazione primo piano-sfondo.
- 6. L'approccio affronta il sovraccarico computazionale derivante dai token visivi.
- 7. La ricerca è pubblicata su arXiv con ID 2605.13178.
- 8. Il metodo è guidato dal testo.
Entità
Istituzioni
- arXiv