SpikeMLLM Introduce il Primo Framework Spike-Based per Modelli Linguistici Multimodali di Grande Scala per Migliorare l'Efficienza Energetica

ai-technology · 2026-04-22

SpikeMLLM, un innovativo framework spike-based per Modelli Linguistici Multimodali di Grande Scala (MLLMs), affronta le inefficienze computazionali ed energetiche dei modelli esistenti sfruttando le Reti Neurali a Spike (SNNs). Il framework supera sfide come le modalità eterogenee e gli input di immagini ad alta risoluzione attraverso Scale Temporali Specifiche per Modalità (MSTS) e LIF Temporalmente Compresso (TC-LIF), riducendo la compressione dei passi temporali da T=L-1 a T=log2(L)-1. Questo approccio unifica i metodi di quantizzazione ANN nello spazio di rappresentazione spike, guidato dalla Discrepanza di Evoluzione delle Modalità (MED), per migliorare l'efficienza energetica su hardware neuromorfico. Esperimenti su quattro MLLM rappresentativi ne dimostrano il potenziale per il dispiegamento in ambienti con risorse limitate, come dettagliato nel preprint arXiv 2604.18610v1.

Fatti principali

SpikeMLLM è il primo framework spike-based per Modelli Linguistici Multimodali di Grande Scala (MLLMs).
Utilizza Reti Neurali a Spike (SNNs) per un'elaborazione event-driven ad alta efficienza energetica.
Le sfide includono modalità eterogenee e input di immagini ad alta risoluzione.
Le Scale Temporali Specifiche per Modalità (MSTS) sono guidate dalla Discrepanza di Evoluzione delle Modalità (MED).
Il LIF Temporalmente Compresso (TC-LIF) comprime i passi temporali da T=L-1 a T=log2(L)-1.
Il framework unifica i metodi di quantizzazione ANN esistenti nello spazio di rappresentazione spike.
Gli esperimenti sono stati condotti su quattro MLLM rappresentativi.
La ricerca è documentata nel preprint arXiv 2604.18610v1.

SpikeMLLM Introduce il Primo Framework Spike-Based per Modelli Linguistici Multimodali di Grande Scala per Migliorare l'Efficienza Energetica

Fatti principali

Entità

Istituzioni

Fonti