AdaMeZO: Ottimizzatore di Ordine Zero Efficiente in Memoria per il Fine-Tuning di LLM

ai-technology · 2026-05-04

AdaMeZO è un nuovo ottimizzatore di ordine zero progettato per il fine-tuning di grandi modelli linguistici (LLM) senza l'overhead di memoria dovuto al mantenimento dei momenti di primo e secondo ordine. I metodi tradizionali basati sulla retropropagazione richiedono una notevole memoria GPU, mentre MeZO riduce la memoria utilizzando solo passaggi in avanti, ma soffre di una convergenza più lenta. AdaMeZO incorpora stime dei momenti in stile Adam senza memorizzarle, ottenendo una convergenza più rapida pur preservando l'efficienza di memoria di MeZO. L'articolo fornisce analisi teoriche e validazione sperimentale che dimostrano l'efficacia di AdaMeZO.

Fatti principali

AdaMeZO è un ottimizzatore di ordine zero per il fine-tuning di LLM.
Sfrutta stime di primo e secondo momento in stile Adam senza mantenerle in memoria.
MeZO riduce la memoria GPU utilizzando solo passaggi in avanti.
Adam memorizza i momenti in memoria, triplicando i requisiti di memoria.
AdaMeZO mira a combinare l'efficienza di memoria di MeZO con la velocità di convergenza di Adam.
L'articolo include analisi teoriche e ampi esperimenti.
Il lavoro è pubblicato su arXiv con ID 2605.00650.
Il fine-tuning degli LLM è necessario per compiti downstream.

AdaMeZO: Ottimizzatore di Ordine Zero Efficiente in Memoria per il Fine-Tuning di LLM

Fatti principali

Entità

Istituzioni

Fonti