MuCRASP: Potatura Strutturata per il Ragionamento a Catena di Pensiero nei VLM
I ricercatori hanno scoperto che le attuali tecniche di potatura strutturata non mantengono l'accuratezza del ragionamento a catena di pensiero (CoT) nei modelli visione-linguaggio (VLM). Indicano due ragioni principali per questa carenza: la dipendenza della coerenza del CoT da token pivot sparsi nei percorsi di generazione, che vengono trascurati dai metodi di potatura, e il fallimento della potatura progettata per LLM unimodali nel considerare le differenze nella distribuzione dell'attivazione tra modalità visiva e testuale. Per affrontare questo problema, introducono MuCRASP, un framework di potatura strutturata che si concentra sui componenti critici per il ragionamento, garantendo al contempo l'allineamento cross-modale e affrontando la sensibilità a livello di strato all'interno di un budget globale di parametri. I test condotti su quattro VLM attraverso tre benchmark di ragionamento dimostrano miglioramenti consistenti.
Fatti principali
- MuCRASP è un framework di potatura strutturata per VLM.
- Si concentra sui componenti critici per il ragionamento nella generazione a catena di pensiero.
- I metodi di potatura esistenti sono CoT-agnostici e ignorano i token pivot.
- La potatura unimodale fallisce a causa delle differenze di attivazione cross-modale.
- MuCRASP preserva l'allineamento cross-modale sotto un budget globale di parametri.
- Testato su quattro VLM attraverso tre benchmark di ragionamento.
- Il lavoro è pubblicato su arXiv con ID 2605.25842.
- Il metodo affronta il costo di implementazione dei grandi VLM.
Entità
Istituzioni
- arXiv