PRISM: Selezione dei Dati Senza Addestramento per LLM Multimodali
Un nuovo metodo chiamato PRISM (Self-Pruning Intrinsic Selection Method) affronta la ridondanza nei dataset di istruzioni visive per Modelli Linguistici Multimodali di Grandi Dimensioni (MLLM). L'approccio identifica l'anisotropia nelle distribuzioni delle caratteristiche visive, che causa una Deriva Semantica Globale trascurata dai metodi di selezione esistenti. PRISM opera senza addestramento o modelli proxy, riducendo i costi computazionali. Il metodo è stato introdotto in arXiv:2502.12119v4.
Fatti principali
- PRISM è un metodo senza addestramento per selezionare dati di istruzioni per MLLM.
- Si rivolge alla ridondanza nei dataset di istruzioni visive.
- Il metodo identifica l'anisotropia nelle distribuzioni delle caratteristiche visive.
- L'anisotropia induce una Deriva Semantica Globale.
- I metodi esistenti si basano su inferenza basata su proxy o metriche basate sull'addestramento, computazionalmente onerose.
- PRISM mira a ridurre i costi computazionali.
- L'articolo è disponibile su arXiv con ID 2502.12119v4.
- L'approccio è progettato per un addestramento scalabile ed efficace degli MLLM.
Entità
Istituzioni
- arXiv