ARTFEED — Contemporary Art Intelligence

Dati Sintetici da LLM per la Classificazione dei Brevetti: Compromesso tra Volume e Fedeltà

other · 2026-05-26

Uno studio recente pubblicato su arXiv (2605.24296) esplora il miglioramento della classificazione multi-etichetta dei brevetti in scenari a basse risorse tramite dati sintetici generati da LLM. La ricerca ha utilizzato sei LLM open-source (da 3,8 a 12 miliardi di parametri), quattro scenari di dati reali, 64 etichette di tecnologia assistiva WIPO, due metodi di generazione dei dati e tre tipi di classificatori. I risultati hanno mostrato un aumento significativo del micro-F1 per BERT-for-Patents, passato da 0,120 a 0,702, principalmente grazie al volume. Un controllo di ricampionamento di 165 brevetti aumentati per eguagliare la dimensione ha raggiunto 0,678, con un guadagno sintetico controllato minimo di +0,024, e +0,219 con la riponderazione focal-loss. È interessante notare che le metriche di fedeltà cambiano con la scala: in condizioni di estrema scarsità, l'MMD correla positivamente con il guadagno di classificazione (r=+0,95), ma questa relazione si inverte a un rapporto 1:10 (r=-0,73; Fisher z=+6,47, p<0,001). La proporzione sintetica ottimale suggerita dal mixing a budget fisso è del 20-30%.

Fatti principali

  • Studio su arXiv: 2605.24296
  • Utilizza sei LLM open-source (3,8-12 miliardi di parametri)
  • Quattro regimi di dati reali testati
  • 64 etichette di tecnologia assistiva WIPO
  • Due strategie di generazione
  • Tre famiglie di classificatori
  • BERT-for-Patents micro-F1 da 0,120 a 0,702
  • Controllo di duplicazione per eguagliare raggiunge 0,678
  • Guadagno sintetico controllato: +0,024
  • Guadagno rispetto alla riponderazione focal-loss: +0,219
  • La correlazione MMD si inverte con la scala
  • In condizioni di estrema scarsità: r=+0,95
  • A rapporto 1:10: r=-0,73 (p<0,001)
  • Proporzione sintetica ottimale: 20-30%

Entità

Istituzioni

  • arXiv
  • WIPO

Fonti