ARTFEED — Contemporary Art Intelligence

LlamaWeb: Inferenza LLM a Basso Consumo di Memoria nei Browser tramite WebGPU

ai-technology · 2026-05-22

Un team di ricercatori ha presentato LlamaWeb, un backend WebGPU per llama.cpp che facilita l'inferenza efficiente e portabile di modelli linguistici di grandi dimensioni all'interno dei browser web. Questo sistema minimizza l'uso della memoria tramite pianificazione statica della memoria e caricamento ottimizzato del modello, affronta la variabilità tra dispositivi con una libreria di kernel regolabile e presenta kernel GPU templatizzati che supportano vari formati di quantizzazione per un'ampia compatibilità con i modelli. Testato su 16 dispositivi di 8 diversi produttori con 10 modelli linguistici e quattro formati di peso, LlamaWeb dimostra un'inferenza AI efficace nei browser, mantenendo al contempo privacy e prestazioni.

Fatti principali

  • LlamaWeb è un backend WebGPU per llama.cpp.
  • Consente l'inferenza LLM a basso consumo di memoria nei browser.
  • Il design include pianificazione statica della memoria e caricamento efficiente del modello.
  • Utilizza una libreria di kernel regolabile per la variabilità tra dispositivi.
  • I kernel GPU templatizzati supportano più formati di quantizzazione.
  • Valutato su 16 dispositivi di 8 produttori.
  • Testato con 10 modelli linguistici e quattro formati di peso.
  • Punta a creare applicazioni AI efficienti, private e portabili.

Entità

Fonti