Pensiero ancorato visivamente tramite mascheramento dei prefissi di ragionamento nella distillazione VLM

ai-technology · 2026-05-13

Un nuovo framework di distillazione per modelli visione-linguaggio (VLM) migliora la dipendenza degli studenti dalle prove visive mascherando i prefissi di ragionamento salienti durante l'addestramento. L'approccio, dettagliato in arXiv:2605.11651, si rivolge a VLM compatti think-answer come Qwen3-VL-Thinking, che utilizzano passaggi di ragionamento intermedi ma soffrono di costi computazionali elevati. Il metodo include il mascheramento token-wise dei prefissi di ragionamento salienti e strategie di mascheramento autogestite per incoraggiare l'ancoraggio visivo.

Fatti principali

arXiv:2605.11651 introduce un framework di distillazione think-answer
Il framework maschera i prefissi di ragionamento salienti dello studente per incoraggiare la dipendenza dalle prove visive
Si rivolge a VLM compatti come Qwen3-VL-Thinking
Include il mascheramento token-wise dei prefissi di ragionamento salienti
Include strategie di mascheramento autogestite
Mira a ridurre il costo computazionale dei VLM think-answer
Pubblicato su arXiv
Tipo di annuncio: cross

Pensiero ancorato visivamente tramite mascheramento dei prefissi di ragionamento nella distillazione VLM

Fatti principali

Entità

Istituzioni

Fonti