EmbGen: Pipeline di Dati Sintetici per l'Addestramento di LLM Specifici di Dominio

ai-technology · 2026-05-20

EmbGen è una pipeline per generare dati sintetici che adatta piccoli modelli istruiti a domini specifici. Scompone un corpus di dominio in coppie di descrizioni di entità, che vengono poi ricostruite utilizzando strutture semantiche basate su similarità di embedding. Le coppie domanda-risposta vengono prodotte tramite campionamento per prossimità, nonché campionamento intra-cluster e inter-cluster con prompt adattati a cluster specifici. Le prestazioni di EmbGen sono state valutate rispetto a EntiGraph, InstructLab e Knowledge-Instruct su tre dataset che presentano eterogeneità semantica diversa, utilizzando budget di token fissi di 5 e 20 milioni di token. Questo approccio mira a ridurre i costi associati alla raccolta di esempi di istruzione-risposta curati per il fine-tuning supervisionato.

Fatti principali

EmbGen scompone un corpus in coppie entità-descrizione
Ricostruisce le coppie utilizzando la struttura semantica dalla similarità degli embedding
Genera coppie QA tramite campionamento per prossimità, intra-cluster e inter-cluster
Utilizza prompt di sistema specializzati per cluster
Valutato rispetto a EntiGraph, InstructLab e Knowledge-Instruct
Testato su tre dataset con eterogeneità semantica variabile
Budget di token fissi di 5 e 20 milioni di token
Mira a ridurre il costo della raccolta di dati SFT

Entità

—

Fonti

arXiv cs.AI — 2026-05-20