I MLLM superano le CNN nell'analisi video delle crisi epilettiche

ai-technology · 2026-05-07

Un recente studio pilota pubblicato su arXiv indaga l'efficacia dei modelli linguistici multimodali di grandi dimensioni (MLLM) nell'identificare movimenti patologici in video di crisi epilettiche senza addestramento preliminare. Analizzando 90 registrazioni cliniche insieme a 20 caratteristiche semiologiche definite dall'ILAE, i MLLM hanno superato i benchmark CNN e ViT ottimizzati su 13 delle 18 caratteristiche. Hanno mostrato buone prestazioni nel riconoscere elementi posturali e contestuali prominenti, ma hanno incontrato difficoltà con movimenti sottili e rapidi. Miglioramenti mirati a caratteristiche specifiche, come il ritaglio facciale, la stima della posa e la riduzione del rumore audio, hanno portato a risultati migliori su 10 delle 20 caratteristiche. Questa ricerca sottolinea il potenziale dei MLLM per l'analisi automatizzata della semiologia delle crisi, nonostante le sfide nel rilevare movimenti complessi.

Fatti principali

I MLLM sono stati valutati su 90 registrazioni cliniche di crisi epilettiche
Sono state valutate 20 caratteristiche semiologiche definite dall'ILAE
Prestazioni zero-shot confrontate con CNN e ViT ottimizzati
I MLLM hanno superato i baselines su 13 delle 18 caratteristiche
Il miglioramento del segnale ha migliorato le prestazioni su 10 delle 20 caratteristiche
Studio pubblicato su arXiv con ID 2605.03352

I MLLM superano le CNN nell'analisi video delle crisi epilettiche

Fatti principali

Entità

Istituzioni

Fonti