Benchmark per il recupero di brevetti e modello di embedding: Sophia-Bench e QaECTER

ai-technology · 2026-04-29

Per affrontare la carenza di benchmark diversificati nella ricerca di brevetti, sono stati lanciati un nuovo benchmark denominato Sophia-bench e un modello di embedding da 344 milioni di parametri chiamato QaECTER. Sophia-bench comprende 10.000 query e 75.000 documenti del corpus raccolti in un decennio, coprendo otto sezioni tecnologiche IPC e dodici giurisdizioni di deposito. Valuta l'efficacia del recupero attraverso 12 tipi di query, inclusi campi strutturati dei brevetti e riassunti generati dall'IA, utilizzando una verità di base basata sulle citazioni integrata da una metrica di rilevanza del dominio nota come InScope. QaECTER, addestrato su citazioni di brevetti, mira a migliorare la qualità degli embedding. Questa iniziativa cerca di promuovere l'innovazione, migliorare i processi di esame e informare le decisioni strategiche in materia di proprietà intellettuale.

Fatti principali

Sophia-bench contiene 10.000 query e 75.000 documenti del corpus.
Il benchmark copre dieci anni, otto sezioni tecnologiche IPC e dodici giurisdizioni di deposito.
Testa il recupero utilizzando 12 diversi tipi di query.
Utilizza una verità di base basata sulle citazioni con la metrica InScope.
QaECTER è un modello di embedding da 344 milioni di parametri.
Il modello è addestrato su citazioni di brevetti.
Affronta la mancanza di benchmark diversificati nel recupero di brevetti.
Mira a migliorare l'innovazione, l'esame e la strategia di proprietà intellettuale.

Entità

—

Fonti

arXiv cs.AI — 2026-04-28