MuCRASP: Potatura Strutturata per il Ragionamento a Catena di Pensiero nei VLM

ai-technology · 2026-05-26

I ricercatori hanno scoperto che le attuali tecniche di potatura strutturata non mantengono l'accuratezza del ragionamento a catena di pensiero (CoT) nei modelli visione-linguaggio (VLM). Indicano due ragioni principali per questa carenza: la dipendenza della coerenza del CoT da token pivot sparsi nei percorsi di generazione, che vengono trascurati dai metodi di potatura, e il fallimento della potatura progettata per LLM unimodali nel considerare le differenze nella distribuzione dell'attivazione tra modalità visiva e testuale. Per affrontare questo problema, introducono MuCRASP, un framework di potatura strutturata che si concentra sui componenti critici per il ragionamento, garantendo al contempo l'allineamento cross-modale e affrontando la sensibilità a livello di strato all'interno di un budget globale di parametri. I test condotti su quattro VLM attraverso tre benchmark di ragionamento dimostrano miglioramenti consistenti.

Fatti principali

MuCRASP è un framework di potatura strutturata per VLM.
Si concentra sui componenti critici per il ragionamento nella generazione a catena di pensiero.
I metodi di potatura esistenti sono CoT-agnostici e ignorano i token pivot.
La potatura unimodale fallisce a causa delle differenze di attivazione cross-modale.
MuCRASP preserva l'allineamento cross-modale sotto un budget globale di parametri.
Testato su quattro VLM attraverso tre benchmark di ragionamento.
Il lavoro è pubblicato su arXiv con ID 2605.25842.
Il metodo affronta il costo di implementazione dei grandi VLM.

MuCRASP: Potatura Strutturata per il Ragionamento a Catena di Pensiero nei VLM

Fatti principali

Entità

Istituzioni

Fonti