Metodo di Selezione degli Strati Guidato dalla Geometria Migliora il Fine-Tuning Efficiente dei Parametri nei LLM
Un nuovo articolo di ricerca introduce un approccio guidato dalla geometria per identificare gli strati critici per l'adattamento nei grandi modelli linguistici, affrontando l'incertezza strutturale nel fine-tuning. Il metodo modella l'evoluzione dello stato nascosto come una traiettoria geometrica ad alta dimensionalità e applica l'algoritmo di Ramer-Douglas-Peucker per rilevare punti di svolta cruciali lungo i percorsi di rappresentazione. Questa tecnica di semplificazione poligonale senza parametri e senza addestramento preserva le transizioni strutturali globali eliminando i cambiamenti ridondanti a livello locale. I ricercatori utilizzano questi perni geometrici come segnali decisionali diretti per determinare quali strati dovrebbero essere adattati durante il fine-tuning efficiente dei parametri. La strategia di selezione degli strati consapevole della geometria è stata integrata nel fine-tuning LoRA di Qwen3-8B-Base, dimostrando un'applicazione pratica. L'approccio va oltre le decisioni euristiche sul posizionamento dell'adattamento analizzando i ruoli specifici degli strati delle rappresentazioni interne. La ricerca è stata annunciata su arXiv con identificatore 2604.19321v1, classificata come annuncio incrociato. Questo lavoro contribuisce a un adattamento più efficiente dei grandi modelli linguistici attraverso l'analisi geometrica dell'evoluzione delle rappresentazioni.
Fatti principali
- La ricerca introduce un metodo guidato dalla geometria per la selezione degli strati nel fine-tuning dei LLM
- Utilizza l'algoritmo di Ramer-Douglas-Peucker per identificare punti di svolta critici nei percorsi di rappresentazione
- Il metodo è senza parametri e senza addestramento
- Modella l'evoluzione dello stato nascosto come traiettoria geometrica ad alta dimensionalità
- I perni geometrici vengono utilizzati come segnali decisionali diretti per il posizionamento dell'adattamento
- La strategia è stata integrata nel fine-tuning LoRA di Qwen3-8B-Base
- Affronta l'incertezza strutturale nei metodi di fine-tuning efficiente dei parametri
- La ricerca è stata annunciata su arXiv con identificatore 2604.19321v1
Entità
Istituzioni
- arXiv