Generazione Delta-Code: Un Nuovo Approccio per la Ricerca di Architetture Neurali Basata su LLM
C'è un nuovo approccio chiamato Generazione Delta-Code che promette di migliorare i grandi modelli linguistici (LLM). Invece di costruire modelli da zero, genera brevi diff di codice per ottimizzare le reti neurali, riducendo così costi e complessità. La tecnica affina gli LLM usando LoRA su architetture specifiche del dataset LEMUR e utilizza il filtraggio MinHash-Jaccard per mantenere la diversità. I ricercatori hanno testato tre LLM di classe 7B—DeepSeek-Coder-7B, Qwen2.5-Coder-7B e Mistral-7B—su sei dataset, seguendo un protocollo a 22 cicli con 1.100 candidati ciascuno. I risultati hanno mostrato che tutti i modelli hanno superato la baseline, con DeepSeek-Coder in testa con un tasso di validità del 75,3%. Puoi consultare lo studio su arXiv con ID 2605.04903.
Fatti principali
- La Generazione Delta-Code utilizza LLM affinati per generare diff unificati per raffinare le architetture di base.
- Il metodo evita di generare implementazioni complete del modello da zero.
- Il pipeline utilizza l'affinamento LoRA sul dataset LEMUR con filtraggio di novità MinHash-Jaccard.
- Valutati tre LLM di classe 7B: DeepSeek-Coder-7B, Qwen2.5-Coder-7B, Mistral-7B.
- Testati su sei dataset: CIFAR-10, CIFAR-100, MNIST, SVHN, ImageNette, CelebA.
- Protocollo a 22 cicli con 1.100 candidati per LLM.
- Baseline di generazione completa: 50,6% di tasso di validità, 42,3% di accuratezza media al primo epoch.
- DeepSeek-Coder ha raggiunto il 75,3% di tasso di validità e il 65,8% di accuratezza media.
- Pubblicato su arXiv con ID 2605.04903.
Entità
Istituzioni
- arXiv