PivotMerge: Nuovo Metodo per il Pre-addestramento AI Multimodale
Il documento arXiv 2604.22823v1 introduce PivotMerge, un approccio innovativo per fondere modelli linguistici di grandi dimensioni multimodali (MLLM) durante il pre-addestramento. Il metodo affronta la sfida di integrare le capacità di allineamento cross-modale apprese da dataset eterogenei, che spesso inducono punti di forza complementari. La ricerca esistente sul merging di modelli si concentra sul post-finetuning, lasciando inesplorato il pre-addestramento. PivotMerge si rivolge al merging post-allineamento, con l'obiettivo di combinare rappresentazioni visive e testuali in uno spazio semantico unificato. Le sfide principali includono l'interferenza dei parametri tra domini e l'integrazione di conoscenze di allineamento diverse. Il documento propone una soluzione per colmare il pre-addestramento multimodale eterogeneo tramite il merging di modelli.
Fatti principali
- Documento arXiv 2604.22823v1
- Titolo: PivotMerge: Colmare il Pre-addestramento Multimodale Eterogeneo tramite Merging di Modelli Post-Allineamento
- Si concentra su modelli linguistici di grandi dimensioni multimodali (MLLM)
- Affronta il compito di merging post-allineamento
- Integra l'allineamento cross-modale da pre-addestramento eterogeneo
- Sfide: interferenza dei parametri tra domini
- Contrasta con i lavori esistenti sul merging post-finetuning
- Mira a unificare rappresentazioni visive e testuali
Entità
Istituzioni
- arXiv