Query di Ordine Zero di Rango 1 Ottimizzano il Fine-Tuning LoRA ad Alto Rango

ai-technology · 2026-05-20

Uno studio recente pubblicato su arXiv (2605.19767v1) esplora il paradosso del rango che si incontra quando si integra l'ottimizzazione di ordine zero (ZO) con LoRA per il fine-tuning di grandi modelli linguistici. L'ottimizzazione ZO elimina la necessità di conservare le attivazioni di backpropagation, mentre LoRA introduce adattatori compatti addestrabili. Sebbene aumentare il rango di LoRA migliori la capacità dell'adattatore, la tradizionale ZO a due punti o interrompe un numero di coordinate dipendente dal rango o rende inosservabile il segnale di differenza finita durante gli aggiornamenti atomici. Gli autori identificano il problema come una sfida di topologia di misura piuttosto che un requisito per un sottospazio esterno. LoRA può essere scomposto in atomi di rango 1 accoppiati, ciascuno rappresentante un blocco completo di coordinate fattoriali di dimensione d_out + d_in. Interrogare un atomo per passo preserva il rango dell'adattatore r eliminando r dalla dimensione della perturbazione a singola query, ma la query atomica ingenua rimane non calibrata, portando a una riduzione del segnale attivo di differenza finita di un fattore 1/r a causa dello scaling canonico di LoRA α/r.

Fatti principali

Il paper arXiv:2605.19767v1 affronta il paradosso del rango nell'ottimizzazione ZO con LoRA.
L'ottimizzazione di ordine zero consente il fine-tuning senza memorizzare le attivazioni di backpropagation.
LoRA fornisce adattatori compatti addestrabili per il fine-tuning di grandi modelli linguistici.
Aumentare il rango di LoRA migliora la capacità dell'adattatore ma crea problemi con la ZO standard a due punti.
La ZO standard a due punti o perturba un numero di coordinate dipendente dal rango o rende il segnale inosservabile.
Il collo di bottiglia è identificato come un problema di topologia di misura piuttosto che la necessità di un sottospazio esterno.
LoRA si scompone in atomi di rango 1 accoppiati, ciascuno un blocco completo di coordinate fattoriali di dimensione d_out + d_in.
Interrogare un atomo per passo mantiene il rango dell'adattatore memorizzato r rimuovendo r dalla dimensione della perturbazione.
La query atomica ingenua eredita lo scaling canonico di LoRA α/r, causando un restringimento del segnale come 1/r.

Query di Ordine Zero di Rango 1 Ottimizzano il Fine-Tuning LoRA ad Alto Rango

Fatti principali

Entità

Istituzioni

Fonti