Dati Sintetici da LLM per la Classificazione dei Brevetti: Compromesso tra Volume e Fedeltà
Uno studio recente pubblicato su arXiv (2605.24296) esplora il miglioramento della classificazione multi-etichetta dei brevetti in scenari a basse risorse tramite dati sintetici generati da LLM. La ricerca ha utilizzato sei LLM open-source (da 3,8 a 12 miliardi di parametri), quattro scenari di dati reali, 64 etichette di tecnologia assistiva WIPO, due metodi di generazione dei dati e tre tipi di classificatori. I risultati hanno mostrato un aumento significativo del micro-F1 per BERT-for-Patents, passato da 0,120 a 0,702, principalmente grazie al volume. Un controllo di ricampionamento di 165 brevetti aumentati per eguagliare la dimensione ha raggiunto 0,678, con un guadagno sintetico controllato minimo di +0,024, e +0,219 con la riponderazione focal-loss. È interessante notare che le metriche di fedeltà cambiano con la scala: in condizioni di estrema scarsità, l'MMD correla positivamente con il guadagno di classificazione (r=+0,95), ma questa relazione si inverte a un rapporto 1:10 (r=-0,73; Fisher z=+6,47, p<0,001). La proporzione sintetica ottimale suggerita dal mixing a budget fisso è del 20-30%.
Fatti principali
- Studio su arXiv: 2605.24296
- Utilizza sei LLM open-source (3,8-12 miliardi di parametri)
- Quattro regimi di dati reali testati
- 64 etichette di tecnologia assistiva WIPO
- Due strategie di generazione
- Tre famiglie di classificatori
- BERT-for-Patents micro-F1 da 0,120 a 0,702
- Controllo di duplicazione per eguagliare raggiunge 0,678
- Guadagno sintetico controllato: +0,024
- Guadagno rispetto alla riponderazione focal-loss: +0,219
- La correlazione MMD si inverte con la scala
- In condizioni di estrema scarsità: r=+0,95
- A rapporto 1:10: r=-0,73 (p<0,001)
- Proporzione sintetica ottimale: 20-30%
Entità
Istituzioni
- arXiv
- WIPO