Dispositivi Samsung Galaxy eseguiranno LLM multilingue con commutazione dinamica LoRA e decodifica multi-stream
Un framework innovativo progettato per l'ottimizzazione hardware facilita l'inferenza efficace on-device di un modello fondazionale multilingue basato su LLaMA per gli smartphone Samsung Galaxy S24 e S25, alimentati rispettivamente dai chipset Qualcomm SM8650 e SM8750. Questo sistema impiega LoRA specifici per applicazione come input runtime a un singolo grafo di inferenza congelato, consentendo il cambio di attività senza necessità di ricompilazione o utilizzo aggiuntivo di memoria. Un approccio di decodifica multi-stream genera varie risposte stilistiche—come formali, educate o allegre—simultaneamente in un singolo passaggio in avanti, ottenendo riduzioni di latenza fino a sei volte. Per migliorare la velocità di generazione dei token, viene utilizzato il Dynamic Self-Speculative Decoding (DS2D), un metodo ad albero per predire i token futuri. Le sfide legate all'implementazione di grandi modelli linguistici sugli smartphone derivano da limitazioni rigide su memoria, latenza e adattabilità runtime. Questa ricerca è dettagliata in arXiv:2604.18655v1.
Fatti principali
- Un framework consapevole dell'hardware abilita l'inferenza LLM on-device su Samsung Galaxy S24 e S25
- Il framework supporta un modello fondazionale multilingue basato su LLaMA
- LoRA specifici per applicazione sono integrati come input runtime a un singolo grafo di inferenza congelato
- Il cambio dinamico di attività è abilitato senza ricompilazione o sovraccarico di memoria
- La decodifica multi-stream genera variazioni stilistiche contemporaneamente in un singolo passaggio in avanti
- La latenza è ridotta fino a 6 volte
- Il Dynamic Self-Speculative Decoding (DS2D) accelera la generazione dei token
- Il lavoro affronta le sfide di memoria, latenza e flessibilità runtime sugli smartphone
Entità
Istituzioni
- Samsung
- Qualcomm