EmbGen: Pipeline di Dati Sintetici per l'Addestramento di LLM Specifici di Dominio
EmbGen è una pipeline per generare dati sintetici che adatta piccoli modelli istruiti a domini specifici. Scompone un corpus di dominio in coppie di descrizioni di entità, che vengono poi ricostruite utilizzando strutture semantiche basate su similarità di embedding. Le coppie domanda-risposta vengono prodotte tramite campionamento per prossimità, nonché campionamento intra-cluster e inter-cluster con prompt adattati a cluster specifici. Le prestazioni di EmbGen sono state valutate rispetto a EntiGraph, InstructLab e Knowledge-Instruct su tre dataset che presentano eterogeneità semantica diversa, utilizzando budget di token fissi di 5 e 20 milioni di token. Questo approccio mira a ridurre i costi associati alla raccolta di esempi di istruzione-risposta curati per il fine-tuning supervisionato.
Fatti principali
- EmbGen scompone un corpus in coppie entità-descrizione
- Ricostruisce le coppie utilizzando la struttura semantica dalla similarità degli embedding
- Genera coppie QA tramite campionamento per prossimità, intra-cluster e inter-cluster
- Utilizza prompt di sistema specializzati per cluster
- Valutato rispetto a EntiGraph, InstructLab e Knowledge-Instruct
- Testato su tre dataset con eterogeneità semantica variabile
- Budget di token fissi di 5 e 20 milioni di token
- Mira a ridurre il costo della raccolta di dati SFT
Entità
—