ARTFEED — Contemporary Art Intelligence

ZipRerank: Reranking Listwise Efficiente per Documenti Lunghi in Modalità Multimodale

ai-technology · 2026-05-13

Un team di ricercatori ha introdotto ZipRerank, un innovativo reranker listwise multimodale progettato per superare le sfide computazionali nel recupero incentrato sulla visione e nella generazione aumentata da recupero multimodale (M-RAG) per documenti lunghi. Utilizzando un meccanismo leggero di interazione precoce tra query e immagini, ZipRerank riduce efficacemente la lunghezza dell'input ed evita la decodifica autoregressiva valutando tutti i candidati in un unico passaggio in avanti. Il processo di addestramento consiste in due fasi: pre-addestramento listwise iniziale su ampi dati testuali convertiti in immagini, seguito da un fine-tuning multimodale utilizzando la supervisione di soft-ranking distillata da un insegnante VLM. I test condotti sul benchmark MMDocIR indicano che ZipRerank eguaglia o supera le prestazioni dei modelli leader, migliorando al contempo l'efficienza.

Fatti principali

  • ZipRerank è un reranker listwise multimodale per documenti lunghi.
  • Riduce la lunghezza dell'input tramite interazione precoce query-immagine.
  • Elimina la decodifica autoregressiva valutando tutti i candidati in un unico passaggio in avanti.
  • L'addestramento utilizza una strategia a due fasi: pre-addestramento listwise su testo come immagini e fine-tuning multimodale con distillazione da insegnante VLM.
  • Valutato sul benchmark MMDocIR.
  • Eguaglia o supera le prestazioni dello stato dell'arte.
  • Affronta i colli di bottiglia nel recupero incentrato sulla visione e in M-RAG.
  • Proposto da ricercatori in un articolo su arXiv.

Entità

Istituzioni

  • arXiv

Fonti