Fine-tuning di Qwen3-VL-Embedding-2B per il Recupero di Documenti Visivi Raggiunge 0.947 NDCG@10
Una dimostrazione pratica mostra come il fine-tuning del modello Qwen/Qwen3-VL-Embedding-2B per il Recupero di Documenti Visivi (VDR) migliori significativamente le prestazioni. Il modello risultante tomaarsen/Qwen3-VL-Embedding-2B-vdr raggiunge un punteggio NDCG@10 di 0.947 sui dati di valutazione, superando lo 0.888 del modello base. Questo modello da 2B parametri con fine-tuning supera tutti i modelli VDR esistenti testati, inclusi quelli fino a quattro volte più grandi. L'addestramento ha utilizzato il CachedMultipleNegativesRankingLoss con un mini_batch_size di 1 per gestire i vincoli di memoria. Il MatryoshkaLoss è stato incorporato per consentire un troncamento efficace degli embedding, mantenendo prestazioni quasi massime anche a dimensioni ridotte. Il dataset utilizzato è stato tomaarsen/llamaindex-vdr-en-train-preprocessed, un sottoinsieme pre-elaborato in inglese. Gli argomenti di addestramento includevano precisione bfloat16 e un per_device_train_batch_size di 64. L'InformationRetrievalEvaluator ha monitorato metriche di recupero come NDCG@10 e MAP. La configurazione del modello predefinita produce embedding a 1024 dimensioni per dimezzare le esigenze di archiviazione. La stessa infrastruttura Sentence Transformers può anche ottimizzare modelli di reranking Cross Encoder multimodali.
Fatti principali
- Il fine-tuning ha migliorato l'NDCG@10 da 0.888 a 0.947.
- Il modello da 2B con fine-tuning ha superato i modelli VDR esistenti fino a 4 volte più grandi.
- L'addestramento ha utilizzato CachedMultipleNegativesRankingLoss con mini_batch_size=1.
- Il MatryoshkaLoss ha consentito un troncamento efficace degli embedding per il deployment.
- Il dataset era tomaarsen/llamaindex-vdr-en-train-preprocessed.
- Gli argomenti di addestramento includevano bf16=True e per_device_train_batch_size=64.
- Il modello predefinito produce embedding a 1024 dimensioni per ridurre l'archiviazione.
- Lo stesso framework supporta l'addestramento di modelli di reranking multimodali.
Entità
Istituzioni
- Hugging Face
- LlamaIndex