MobileLLM-Flash: Progettazione di LLM su Dispositivo Guidata dalla Latenza
È stato svelato un nuovo approccio per creare modelli linguistici di grandi dimensioni su dispositivo (OD-LLM) progettati per applicazioni AI in tempo reale su hardware con risorse limitate. Questa tecnica incorpora la ricerca dell'architettura hardware-in-the-loop rispettando i requisiti di latenza mobile, consentendo il deployment dei modelli senza la necessità di kernel personalizzati e garantendo la compatibilità con runtime mobili standard come Executorch. Invece di utilizzare meccanismi di attenzione specializzati, utilizza l'attenzione saltata per migliorare la velocità di elaborazione di contesti lunghi. Il metodo perfeziona simultaneamente l'architettura del modello (inclusi strati e dimensioni) e i pattern di attenzione, considerando ogni candidato come una versione semplificata di un backbone pre-addestrato con pesi condivisi per una valutazione efficace. Questo framework mira a un'implementazione su scala industriale, ampliando l'accesso degli utenti attraverso un'ampia compatibilità hardware e risposte quasi istantanee.
Fatti principali
- La metodologia utilizza la ricerca dell'architettura hardware-in-the-loop sotto vincoli di latenza mobile.
- I modelli sono distribuibili senza kernel personalizzati e compatibili con Executorch.
- Evita meccanismi di attenzione specializzati; utilizza l'attenzione saltata per l'accelerazione di contesti lunghi.
- Ottimizza congiuntamente l'architettura del modello (strati, dimensioni) e il pattern di attenzione.
- Ogni candidato è trattato come una versione potata di un backbone pre-addestrato con pesi ereditati.
- Progettato per il deployment su scala industriale su hardware con risorse limitate.
- Mira a massimizzare la portata degli utenti attraverso un'ampia compatibilità hardware.
- Si concentra su risposte quasi in tempo reale per esperienze AI in tempo reale.
Entità
—