LlamaWeb: Inferenza LLM a Basso Consumo di Memoria nei Browser tramite WebGPU
Un team di ricercatori ha presentato LlamaWeb, un backend WebGPU per llama.cpp che facilita l'inferenza efficiente e portabile di modelli linguistici di grandi dimensioni all'interno dei browser web. Questo sistema minimizza l'uso della memoria tramite pianificazione statica della memoria e caricamento ottimizzato del modello, affronta la variabilità tra dispositivi con una libreria di kernel regolabile e presenta kernel GPU templatizzati che supportano vari formati di quantizzazione per un'ampia compatibilità con i modelli. Testato su 16 dispositivi di 8 diversi produttori con 10 modelli linguistici e quattro formati di peso, LlamaWeb dimostra un'inferenza AI efficace nei browser, mantenendo al contempo privacy e prestazioni.
Fatti principali
- LlamaWeb è un backend WebGPU per llama.cpp.
- Consente l'inferenza LLM a basso consumo di memoria nei browser.
- Il design include pianificazione statica della memoria e caricamento efficiente del modello.
- Utilizza una libreria di kernel regolabile per la variabilità tra dispositivi.
- I kernel GPU templatizzati supportano più formati di quantizzazione.
- Valutato su 16 dispositivi di 8 produttori.
- Testato con 10 modelli linguistici e quattro formati di peso.
- Punta a creare applicazioni AI efficienti, private e portabili.
Entità
—