GiVA: Inizializzazione Basata su Gradiente per il Fine-Tuning Vettoriale
GiVA introduce una strategia di inizializzazione basata sul gradiente per metodi di adattamento vettoriale nel fine-tuning efficiente in termini di parametri. A differenza di LoRA, che richiede matrici a basso rango, i metodi vettoriali utilizzano ancora meno parametri ma spesso necessitano di ranghi più elevati per eguagliare le prestazioni, aumentando i costi di addestramento. GiVA raggiunge tempi di addestramento paragonabili a LoRA mantenendo un'estrema efficienza parametrica. Valutato su benchmark di comprensione del linguaggio naturale, generazione del linguaggio naturale e classificazione di immagini, GiVA supera costantemente o eguaglia i metodi vettoriali esistenti e LoRA, riducendo al contempo i requisiti di rango. Il metodo è dettagliato nel preprint arXiv 2604.21901.
Fatti principali
- GiVA è una strategia di inizializzazione basata sul gradiente per l'adattamento vettoriale.
- Raggiunge tempi di addestramento paragonabili a LoRA.
- Mantiene l'estrema efficienza parametrica dei metodi vettoriali.
- Valutato su benchmark di NLU, NLG e classificazione di immagini.
- Supera costantemente o eguaglia i metodi vettoriali esistenti e LoRA.
- Riduce i requisiti di rango rispetto ad altri metodi vettoriali.
- Pubblicato come preprint arXiv 2604.21901.
- Affronta il compromesso tra efficienza parametrica e costo di addestramento.
Entità
Istituzioni
- arXiv