ARTFEED — Contemporary Art Intelligence

CRAFT: Un Nuovo Metodo per la Selezione Efficiente dei Dati di Addestramento

other · 2026-04-27

Un approccio innovativo denominato CRAFT (Clustered Regression for Adaptive Filtering of Training data) è stato introdotto dai ricercatori per identificare sottoinsiemi di alta qualità da dataset estesi per il fine-tuning di modelli sequenza-a-sequenza, indipendentemente dai metodi di vettorizzazione. La tecnica prevede un processo di selezione in due fasi: inizialmente, allinea la distribuzione della sorgente di validazione allocando i budget proporzionalmente tra i cluster k-means; successivamente, sceglie coppie di addestramento all'interno di ciascun cluster che minimizzano una distanza condizionale attesa basata sulla distribuzione target di validazione. CRAFT limita efficacemente la divergenza KL continua tra le distribuzioni selezionate e quelle di validazione, con il residuo gestito dai diametri dei cluster. Questo metodo è stato testato su compiti in lingua inglese, rispondendo alla crescente domanda di fine-tuning efficiente man mano che i dataset crescono fino a decine di milioni di punti dati.

Fatti principali

  • CRAFT sta per Clustered Regression for Adaptive Filtering of Training data.
  • È un metodo di selezione agnostico rispetto alla vettorizzazione per modelli sequenza-a-sequenza.
  • Il metodo scompone la distribuzione congiunta sorgente-target.
  • La selezione prevede due fasi: allocazione proporzionale del budget tra i cluster k-means e minimizzazione della distanza condizionale attesa.
  • L'allocazione proporzionale dei cluster limita la divergenza KL continua tra le distribuzioni selezionate e quelle di validazione.
  • Il residuo è controllato dai diametri dei cluster.
  • CRAFT è valutato su compiti in lingua inglese.
  • Il metodo affronta la sfida del fine-tuning su grandi corpora con decine di milioni di punti dati.

Entità

Fonti