ZipRerank: Reranking Listwise Efficiente per Documenti Lunghi in Modalità Multimodale
Un team di ricercatori ha introdotto ZipRerank, un innovativo reranker listwise multimodale progettato per superare le sfide computazionali nel recupero incentrato sulla visione e nella generazione aumentata da recupero multimodale (M-RAG) per documenti lunghi. Utilizzando un meccanismo leggero di interazione precoce tra query e immagini, ZipRerank riduce efficacemente la lunghezza dell'input ed evita la decodifica autoregressiva valutando tutti i candidati in un unico passaggio in avanti. Il processo di addestramento consiste in due fasi: pre-addestramento listwise iniziale su ampi dati testuali convertiti in immagini, seguito da un fine-tuning multimodale utilizzando la supervisione di soft-ranking distillata da un insegnante VLM. I test condotti sul benchmark MMDocIR indicano che ZipRerank eguaglia o supera le prestazioni dei modelli leader, migliorando al contempo l'efficienza.
Fatti principali
- ZipRerank è un reranker listwise multimodale per documenti lunghi.
- Riduce la lunghezza dell'input tramite interazione precoce query-immagine.
- Elimina la decodifica autoregressiva valutando tutti i candidati in un unico passaggio in avanti.
- L'addestramento utilizza una strategia a due fasi: pre-addestramento listwise su testo come immagini e fine-tuning multimodale con distillazione da insegnante VLM.
- Valutato sul benchmark MMDocIR.
- Eguaglia o supera le prestazioni dello stato dell'arte.
- Affronta i colli di bottiglia nel recupero incentrato sulla visione e in M-RAG.
- Proposto da ricercatori in un articolo su arXiv.
Entità
Istituzioni
- arXiv