LlamaWeb: Inferenza LLM a Basso Consumo di Memoria nei Browser tramite WebGPU

ai-technology · 2026-05-22

Un team di ricercatori ha presentato LlamaWeb, un backend WebGPU per llama.cpp che facilita l'inferenza efficiente e portabile di modelli linguistici di grandi dimensioni all'interno dei browser web. Questo sistema minimizza l'uso della memoria tramite pianificazione statica della memoria e caricamento ottimizzato del modello, affronta la variabilità tra dispositivi con una libreria di kernel regolabile e presenta kernel GPU templatizzati che supportano vari formati di quantizzazione per un'ampia compatibilità con i modelli. Testato su 16 dispositivi di 8 diversi produttori con 10 modelli linguistici e quattro formati di peso, LlamaWeb dimostra un'inferenza AI efficace nei browser, mantenendo al contempo privacy e prestazioni.

Fatti principali

LlamaWeb è un backend WebGPU per llama.cpp.
Consente l'inferenza LLM a basso consumo di memoria nei browser.
Il design include pianificazione statica della memoria e caricamento efficiente del modello.
Utilizza una libreria di kernel regolabile per la variabilità tra dispositivi.
I kernel GPU templatizzati supportano più formati di quantizzazione.
Valutato su 16 dispositivi di 8 produttori.
Testato con 10 modelli linguistici e quattro formati di peso.
Punta a creare applicazioni AI efficienti, private e portabili.

Entità

—

Fonti

arXiv cs.AI — 2026-05-21