ARTFEED — Contemporary Art Intelligence

Fine-tuning di Qwen3-VL-Embedding-2B per il Recupero di Documenti Visivi Raggiunge 0.947 NDCG@10

ai-technology · 2026-04-17

Una dimostrazione pratica mostra come il fine-tuning del modello Qwen/Qwen3-VL-Embedding-2B per il Recupero di Documenti Visivi (VDR) migliori significativamente le prestazioni. Il modello risultante tomaarsen/Qwen3-VL-Embedding-2B-vdr raggiunge un punteggio NDCG@10 di 0.947 sui dati di valutazione, superando lo 0.888 del modello base. Questo modello da 2B parametri con fine-tuning supera tutti i modelli VDR esistenti testati, inclusi quelli fino a quattro volte più grandi. L'addestramento ha utilizzato il CachedMultipleNegativesRankingLoss con un mini_batch_size di 1 per gestire i vincoli di memoria. Il MatryoshkaLoss è stato incorporato per consentire un troncamento efficace degli embedding, mantenendo prestazioni quasi massime anche a dimensioni ridotte. Il dataset utilizzato è stato tomaarsen/llamaindex-vdr-en-train-preprocessed, un sottoinsieme pre-elaborato in inglese. Gli argomenti di addestramento includevano precisione bfloat16 e un per_device_train_batch_size di 64. L'InformationRetrievalEvaluator ha monitorato metriche di recupero come NDCG@10 e MAP. La configurazione del modello predefinita produce embedding a 1024 dimensioni per dimezzare le esigenze di archiviazione. La stessa infrastruttura Sentence Transformers può anche ottimizzare modelli di reranking Cross Encoder multimodali.

Fatti principali

  • Il fine-tuning ha migliorato l'NDCG@10 da 0.888 a 0.947.
  • Il modello da 2B con fine-tuning ha superato i modelli VDR esistenti fino a 4 volte più grandi.
  • L'addestramento ha utilizzato CachedMultipleNegativesRankingLoss con mini_batch_size=1.
  • Il MatryoshkaLoss ha consentito un troncamento efficace degli embedding per il deployment.
  • Il dataset era tomaarsen/llamaindex-vdr-en-train-preprocessed.
  • Gli argomenti di addestramento includevano bf16=True e per_device_train_batch_size=64.
  • Il modello predefinito produce embedding a 1024 dimensioni per ridurre l'archiviazione.
  • Lo stesso framework supporta l'addestramento di modelli di reranking multimodali.

Entità

Istituzioni

  • Hugging Face
  • LlamaIndex

Fonti