ARTFEED — Contemporary Art Intelligence

Dispositivi Samsung Galaxy eseguiranno LLM multilingue con commutazione dinamica LoRA e decodifica multi-stream

ai-technology · 2026-04-22

Un framework innovativo progettato per l'ottimizzazione hardware facilita l'inferenza efficace on-device di un modello fondazionale multilingue basato su LLaMA per gli smartphone Samsung Galaxy S24 e S25, alimentati rispettivamente dai chipset Qualcomm SM8650 e SM8750. Questo sistema impiega LoRA specifici per applicazione come input runtime a un singolo grafo di inferenza congelato, consentendo il cambio di attività senza necessità di ricompilazione o utilizzo aggiuntivo di memoria. Un approccio di decodifica multi-stream genera varie risposte stilistiche—come formali, educate o allegre—simultaneamente in un singolo passaggio in avanti, ottenendo riduzioni di latenza fino a sei volte. Per migliorare la velocità di generazione dei token, viene utilizzato il Dynamic Self-Speculative Decoding (DS2D), un metodo ad albero per predire i token futuri. Le sfide legate all'implementazione di grandi modelli linguistici sugli smartphone derivano da limitazioni rigide su memoria, latenza e adattabilità runtime. Questa ricerca è dettagliata in arXiv:2604.18655v1.

Fatti principali

  • Un framework consapevole dell'hardware abilita l'inferenza LLM on-device su Samsung Galaxy S24 e S25
  • Il framework supporta un modello fondazionale multilingue basato su LLaMA
  • LoRA specifici per applicazione sono integrati come input runtime a un singolo grafo di inferenza congelato
  • Il cambio dinamico di attività è abilitato senza ricompilazione o sovraccarico di memoria
  • La decodifica multi-stream genera variazioni stilistiche contemporaneamente in un singolo passaggio in avanti
  • La latenza è ridotta fino a 6 volte
  • Il Dynamic Self-Speculative Decoding (DS2D) accelera la generazione dei token
  • Il lavoro affronta le sfide di memoria, latenza e flessibilità runtime sugli smartphone

Entità

Istituzioni

  • Samsung
  • Qualcomm

Fonti