Il Framework NeuroLip Utilizza Telecamere Basate su Eventi per il Riconoscimento Visivo del Parlante tramite Movimento Labiale
Un nuovo framework chiamato NeuroLip è stato sviluppato per affrontare il riconoscimento visivo del parlante attraverso l'analisi del movimento labiale. Questo approccio fornisce una soluzione biometrica che funziona senza suono e rimane efficace quando gli indizi audio sono assenti. A differenza dei metodi tradizionali dipendenti dall'aspetto, il movimento labiale cattura le dinamiche comportamentali guidate da modelli di articolazione coerenti e coordinazione muscolare. Queste dinamiche offrono una stabilità intrinseca in diverse condizioni ambientali. Tuttavia, catturare i movimenti labiali di alta precisione si rivela impegnativo per le telecamere convenzionali basate su fotogrammi a causa di problemi come la sfocatura da movimento e la gamma dinamica limitata. Per superare queste limitazioni di rilevamento e sfruttare la stabilità del movimento labiale, NeuroLip impiega la tecnologia basata su eventi. Il framework opera secondo un protocollo rigoroso cross-scena in cui l'addestramento avviene in un singolo ambiente controllato. Il riconoscimento deve quindi generalizzarsi ad angoli di visuale e condizioni di illuminazione non visti in precedenza. Questa ricerca è stata annunciata su arXiv con l'identificatore 2604.15718v1.
Fatti principali
- NeuroLip è un framework basato su eventi per il riconoscimento visivo del parlante.
- Analizza il movimento labiale come soluzione biometrica silenziosa e senza uso delle mani.
- Il movimento labiale codifica dinamiche comportamentali specifiche del soggetto derivanti da modelli di articolazione e coordinazione muscolare.
- Questo metodo offre una stabilità intrinseca attraverso i cambiamenti ambientali rispetto agli approcci dipendenti dall'aspetto.
- Le telecamere convenzionali basate su fotogrammi faticano con le dinamiche labiali di alta precisione a causa della sfocatura da movimento e della bassa gamma dinamica.
- Il framework utilizza un protocollo cross-scena: addestramento in una singola condizione controllata, riconoscimento in condizioni non viste.
- La ricerca è stata annunciata su arXiv con l'identificatore 2604.15718v1.
- Il riconoscimento visivo del parlante rimane efficace quando gli indizi acustici non sono disponibili.
Entità
Istituzioni
- arXiv