Generazione Delta-Code: Un Nuovo Approccio per la Ricerca di Architetture Neurali Basata su LLM

ai-technology · 2026-05-07

C'è un nuovo approccio chiamato Generazione Delta-Code che promette di migliorare i grandi modelli linguistici (LLM). Invece di costruire modelli da zero, genera brevi diff di codice per ottimizzare le reti neurali, riducendo così costi e complessità. La tecnica affina gli LLM usando LoRA su architetture specifiche del dataset LEMUR e utilizza il filtraggio MinHash-Jaccard per mantenere la diversità. I ricercatori hanno testato tre LLM di classe 7B—DeepSeek-Coder-7B, Qwen2.5-Coder-7B e Mistral-7B—su sei dataset, seguendo un protocollo a 22 cicli con 1.100 candidati ciascuno. I risultati hanno mostrato che tutti i modelli hanno superato la baseline, con DeepSeek-Coder in testa con un tasso di validità del 75,3%. Puoi consultare lo studio su arXiv con ID 2605.04903.

Fatti principali

La Generazione Delta-Code utilizza LLM affinati per generare diff unificati per raffinare le architetture di base.
Il metodo evita di generare implementazioni complete del modello da zero.
Il pipeline utilizza l'affinamento LoRA sul dataset LEMUR con filtraggio di novità MinHash-Jaccard.
Valutati tre LLM di classe 7B: DeepSeek-Coder-7B, Qwen2.5-Coder-7B, Mistral-7B.
Testati su sei dataset: CIFAR-10, CIFAR-100, MNIST, SVHN, ImageNette, CelebA.
Protocollo a 22 cicli con 1.100 candidati per LLM.
Baseline di generazione completa: 50,6% di tasso di validità, 42,3% di accuratezza media al primo epoch.
DeepSeek-Coder ha raggiunto il 75,3% di tasso di validità e il 65,8% di accuratezza media.
Pubblicato su arXiv con ID 2605.04903.

Generazione Delta-Code: Un Nuovo Approccio per la Ricerca di Architetture Neurali Basata su LLM

Fatti principali

Entità

Istituzioni

Fonti