Benchmark dei Modelli di Embedding per Brevetti: 22 Modelli Testati su Recupero, Classificazione e Clustering
Un nuovo studio ha valutato 22 diversi modelli di embedding per brevetti, che includono encoder con appena 22 milioni di parametri fino a grandi modelli linguistici (LLM) ottimizzati tramite istruzioni con fino a 12 miliardi di parametri. Lo studio sfrutta una raccolta di 113.148 brevetti di tecnologie assistive dell'OMPI e 46.069 query di recupero da grafi di citazioni, oltre al dataset DAPFAM. La valutazione include il recupero basato su citazioni, una fusione ibrida sparsa e densa, classificazione multi-etichetta su vari dataset, clustering non supervisionato e analisi di esperti DWPI. I risultati mostrano che gli approcci di fine-tuning differiscono in base al compito; ad esempio, mentre il fine-tuning su un singolo dominio può migliorare le prestazioni all'interno del dominio, può ostacolare il recupero in contesti diversi, sollevando domande sui benefici di più dati di dominio.
Fatti principali
- 22 modelli di embedding confrontati
- Modelli che vanno da encoder con 22 milioni di parametri a LLM con 12 miliardi di parametri ottimizzati tramite istruzioni
- Compiti: recupero, classificazione, clustering
- 113.148 brevetti di tecnologie assistive dell'OMPI utilizzati
- 46.069 query di recupero da grafi di citazioni
- Dataset pubblico DAPFAM per validazione esterna
- Il framework include recupero basato su citazioni, fusione ibrida sparsa-densa, classificazione multi-etichetta, clustering non supervisionato, sei viste di sezioni testuali, fine-tuning adattivo al dominio, analisi per giurisdizione, contenuto DWPI proprietario
- Il fine-tuning dipende dal compito: l'ottimizzazione su un singolo dominio può migliorare i punteggi intra-dominio ma danneggiare il recupero esterno
Entità
Istituzioni
- WIPO
- Clarivate