ARTFEED — Contemporary Art Intelligence

LiteLVLM: Potatura dei Token Senza Addestramento per un Efficiente Grounding dei Pixel nei Modelli Visione-Linguaggio

ai-technology · 2026-05-14

Un nuovo approccio chiamato LiteLVLM è stato sviluppato dai ricercatori, offrendo una tecnica di potatura dei token guidata dal testo e senza addestramento, volta a migliorare l'inferenza del grounding dei pixel all'interno di grandi modelli visione-linguaggio. Questa strategia affronta il carico computazionale associato ai token visivi invertendo la classifica della similarità visivo-testuale di CLIP. Ciò consente di preservare i token che comprendono le aree di riferimento, recuperando anche token di contesto per garantire una netta separazione tra primo piano e sfondo. Esperimenti approfonditi convalidano l'efficacia del metodo.

Fatti principali

  • 1. LiteLVLM è una strategia di potatura dei token senza addestramento.
  • 2. Si concentra sui compiti di grounding dei pixel in grandi modelli visione-linguaggio.
  • 3. Il metodo inverte la classifica della similarità visivo-testuale di CLIP.
  • 4. Mantiene i token visivi che coprono le regioni di riferimento.
  • 5. Recupera token di contesto per la separazione primo piano-sfondo.
  • 6. L'approccio affronta il sovraccarico computazionale derivante dai token visivi.
  • 7. La ricerca è pubblicata su arXiv con ID 2605.13178.
  • 8. Il metodo è guidato dal testo.

Entità

Istituzioni

  • arXiv

Fonti