ARTFEED — Contemporary Art Intelligence

Benchmark dei Modelli di Embedding per Brevetti: 22 Modelli Testati su Recupero, Classificazione e Clustering

other · 2026-05-26

Un nuovo studio ha valutato 22 diversi modelli di embedding per brevetti, che includono encoder con appena 22 milioni di parametri fino a grandi modelli linguistici (LLM) ottimizzati tramite istruzioni con fino a 12 miliardi di parametri. Lo studio sfrutta una raccolta di 113.148 brevetti di tecnologie assistive dell'OMPI e 46.069 query di recupero da grafi di citazioni, oltre al dataset DAPFAM. La valutazione include il recupero basato su citazioni, una fusione ibrida sparsa e densa, classificazione multi-etichetta su vari dataset, clustering non supervisionato e analisi di esperti DWPI. I risultati mostrano che gli approcci di fine-tuning differiscono in base al compito; ad esempio, mentre il fine-tuning su un singolo dominio può migliorare le prestazioni all'interno del dominio, può ostacolare il recupero in contesti diversi, sollevando domande sui benefici di più dati di dominio.

Fatti principali

  • 22 modelli di embedding confrontati
  • Modelli che vanno da encoder con 22 milioni di parametri a LLM con 12 miliardi di parametri ottimizzati tramite istruzioni
  • Compiti: recupero, classificazione, clustering
  • 113.148 brevetti di tecnologie assistive dell'OMPI utilizzati
  • 46.069 query di recupero da grafi di citazioni
  • Dataset pubblico DAPFAM per validazione esterna
  • Il framework include recupero basato su citazioni, fusione ibrida sparsa-densa, classificazione multi-etichetta, clustering non supervisionato, sei viste di sezioni testuali, fine-tuning adattivo al dominio, analisi per giurisdizione, contenuto DWPI proprietario
  • Il fine-tuning dipende dal compito: l'ottimizzazione su un singolo dominio può migliorare i punteggi intra-dominio ma danneggiare il recupero esterno

Entità

Istituzioni

  • WIPO
  • Clarivate

Fonti