Nuova strategia di uscita anticipata bidimensionale accelera l'inferenza dei LLM per compiti di classificazione
Una nuova tecnica di uscita anticipata bidimensionale per i grandi modelli linguistici integra uscite a livello di strato e a livello di frase per ottenere una significativa efficienza computazionale. Questa strategia elabora l'input in modo incrementale, analizzando ogni frase mentre attiva progressivamente strati più profondi, superando le ottimizzazioni che si concentrano su una sola dimensione. I test su quattro LLM leader—Llama 3.1, Llama 3.2, Gemma e Qwen, che hanno parametri tra 3B e 8B—hanno mostrato miglioramenti di velocità compresi tra 1,4 e 2,3 volte rispetto alle uscite anticipate ottimali a livello di strato su tre dataset di classificazione del sentimento. Il metodo mostra un declino graduale delle prestazioni su compiti multi-classe complessi, e sebbene il fine-tuning riduca i suoi benefici, non li annulla completamente. È indipendente dal modello, richiedendo solo semplici adattatori di classificazione, e si integra con altre tecniche di efficienza come la quantizzazione. Questa strategia è stata dettagliata in un abstract di annuncio incrociato su arXiv, identificato come 2604.18592v1.
Fatti principali
- Una strategia di uscita anticipata bidimensionale coordina uscite a livello di strato e a livello di frase per compiti di classificazione con LLM.
- Il metodo elabora l'input in modo incrementale frase per frase mentre attiva progressivamente strati più profondi.
- Ottiene risparmi computazionali moltiplicativi che superano quelli derivanti dall'ottimizzazione di ciascuna dimensione indipendentemente.
- La valutazione sperimentale ha coinvolto quattro LLM all'avanguardia: Llama 3.1, Llama 3.2, Gemma e Qwen.
- I modelli variavano da 3B a 8B parametri.
- I test sono stati condotti su tre dataset di classificazione del sentimento.
- Sono stati osservati incrementi di velocità da 1,4 a 2,3 volte rispetto all'uscita anticipata ottimale a livello di strato per compiti più semplici.
- L'approccio è indipendente dal modello e richiede solo adattatori di classificazione leggeri.
Entità
Istituzioni
- arXiv