Dati Sintetici da LLM per la Classificazione dei Brevetti: Compromesso tra Volume e Fedeltà

other · 2026-05-26

Uno studio recente pubblicato su arXiv (2605.24296) esplora il miglioramento della classificazione multi-etichetta dei brevetti in scenari a basse risorse tramite dati sintetici generati da LLM. La ricerca ha utilizzato sei LLM open-source (da 3,8 a 12 miliardi di parametri), quattro scenari di dati reali, 64 etichette di tecnologia assistiva WIPO, due metodi di generazione dei dati e tre tipi di classificatori. I risultati hanno mostrato un aumento significativo del micro-F1 per BERT-for-Patents, passato da 0,120 a 0,702, principalmente grazie al volume. Un controllo di ricampionamento di 165 brevetti aumentati per eguagliare la dimensione ha raggiunto 0,678, con un guadagno sintetico controllato minimo di +0,024, e +0,219 con la riponderazione focal-loss. È interessante notare che le metriche di fedeltà cambiano con la scala: in condizioni di estrema scarsità, l'MMD correla positivamente con il guadagno di classificazione (r=+0,95), ma questa relazione si inverte a un rapporto 1:10 (r=-0,73; Fisher z=+6,47, p<0,001). La proporzione sintetica ottimale suggerita dal mixing a budget fisso è del 20-30%.

Fatti principali

Studio su arXiv: 2605.24296
Utilizza sei LLM open-source (3,8-12 miliardi di parametri)
Quattro regimi di dati reali testati
64 etichette di tecnologia assistiva WIPO
Due strategie di generazione
Tre famiglie di classificatori
BERT-for-Patents micro-F1 da 0,120 a 0,702
Controllo di duplicazione per eguagliare raggiunge 0,678
Guadagno sintetico controllato: +0,024
Guadagno rispetto alla riponderazione focal-loss: +0,219
La correlazione MMD si inverte con la scala
In condizioni di estrema scarsità: r=+0,95
A rapporto 1:10: r=-0,73 (p<0,001)
Proporzione sintetica ottimale: 20-30%

Dati Sintetici da LLM per la Classificazione dei Brevetti: Compromesso tra Volume e Fedeltà

Fatti principali

Entità

Istituzioni

Fonti