ARTFEED — Contemporary Art Intelligence

EmbGen: Pipeline di Dati Sintetici per l'Addestramento di LLM Specifici di Dominio

ai-technology · 2026-05-20

EmbGen è una pipeline per generare dati sintetici che adatta piccoli modelli istruiti a domini specifici. Scompone un corpus di dominio in coppie di descrizioni di entità, che vengono poi ricostruite utilizzando strutture semantiche basate su similarità di embedding. Le coppie domanda-risposta vengono prodotte tramite campionamento per prossimità, nonché campionamento intra-cluster e inter-cluster con prompt adattati a cluster specifici. Le prestazioni di EmbGen sono state valutate rispetto a EntiGraph, InstructLab e Knowledge-Instruct su tre dataset che presentano eterogeneità semantica diversa, utilizzando budget di token fissi di 5 e 20 milioni di token. Questo approccio mira a ridurre i costi associati alla raccolta di esempi di istruzione-risposta curati per il fine-tuning supervisionato.

Fatti principali

  • EmbGen scompone un corpus in coppie entità-descrizione
  • Ricostruisce le coppie utilizzando la struttura semantica dalla similarità degli embedding
  • Genera coppie QA tramite campionamento per prossimità, intra-cluster e inter-cluster
  • Utilizza prompt di sistema specializzati per cluster
  • Valutato rispetto a EntiGraph, InstructLab e Knowledge-Instruct
  • Testato su tre dataset con eterogeneità semantica variabile
  • Budget di token fissi di 5 e 20 milioni di token
  • Mira a ridurre il costo della raccolta di dati SFT

Entità

Fonti