DeMix: Separare la Ricerca dall'Addestramento per il Mixing dei Dati nei LLM

ai-technology · 2026-05-18

Il recentemente introdotto framework Decouple Searching from Training Mix (DeMix) propone di sfruttare il merging dei modelli per determinare i migliori rapporti di dati per il pre-addestramento dei Large Language Models (LLM). Le tecniche convenzionali spesso si basano su test proxy su piccola scala inaffidabili o comportano costose indagini su larga scala. DeMix scala l'addestramento dei modelli componenti su dataset selezionati e genera proxy di miscela di dati attraverso il merging ponderato dei modelli, separando efficacemente i costi di ricerca da quelli di addestramento. Questa innovazione facilita la valutazione di innumerevoli miscele campionate senza ulteriori richieste di addestramento, migliorando la scoperta di miscele attraverso un maggior numero di tentativi di ricerca. Il metodo affronta la difficoltà di raggiungere un equilibrio tra competenza generale e competenza in aree difficili come la matematica e la programmazione.

Fatti principali

DeMix è un nuovo framework per il mixing dei dati di pre-addestramento dei LLM.
Utilizza il merging dei modelli per prevedere i rapporti ottimali dei dati.
I modelli componenti vengono addestrati su dataset candidati su larga scala.
I proxy di miscela di dati sono derivati tramite merging ponderato dei modelli.
La ricerca è separata dai costi di addestramento.
Miscele campionate illimitate possono essere valutate senza addestramento aggiuntivo.
L'obiettivo è bilanciare la competenza generale con la competenza in compiti difficili.
Gli approcci esistenti si basano su esperimenti proxy inaffidabili o esplorazione costosa.

Entità

—

Fonti

arXiv cs.AI — 2026-05-18