Nuovo Modello Autoregressivo Abilita l'Estrazione del Parlante Target in Tempo Reale con Splicing Intervallato a Blocchi

ai-technology · 2026-04-22

È stato introdotto un nuovo modello autoregressivo specificamente progettato per l'estrazione del parlante target (TSE) in streaming, per affrontare i limiti dei modelli generativi esistenti. Sebbene i modelli generativi abbiano raggiunto standard elevati nel TSE, la loro dipendenza dal contesto globale impedisce l'applicazione in tempo reale, e l'adattamento diretto agli scenari di streaming causa un significativo degrado delle prestazioni. L'approccio proposto implementa un Paradigma di Splicing Intervallato a Blocchi per consentire un'inferenza di streaming efficiente e stabile. Per mantenere la coerenza tra i segmenti vocali estratti, il modello incorpora un meccanismo di raffinamento del contesto storico che riduce le discontinuità di confine utilizzando informazioni passate. La validazione sperimentale sul dataset Libri2Mix dimostra che il nuovo modello autoregressivo mantiene una stabilità del 100% e una superiore intelligibilità a bassa latenza, mentre le baseline generative autoregressive tradizionali mostrano un calo delle prestazioni. Questa ricerca, documentata nella preprint arXiv 2604.19635v1, rappresenta i primi modelli autoregressivi creati per il TSE in streaming, con l'obiettivo di colmare il divario tra ambienti di addestramento e inferenza in tempo reale.

Fatti principali

I modelli autoregressivi sono ora adattati per l'estrazione del parlante target (TSE) in streaming.
I modelli generativi si basano sul contesto globale, ostacolando il dispiegamento in tempo reale.
L'adattamento diretto allo streaming spesso porta a un degrado catastrofico delle prestazioni di inferenza.
Un Paradigma di Splicing Intervallato a Blocchi garantisce un'inferenza di streaming efficiente e stabile.
Un meccanismo di raffinamento del contesto storico mitiga le discontinuità di confine sfruttando informazioni storiche.
Gli esperimenti su Libri2Mix mostrano che l'approccio mantiene una stabilità del 100% e una superiore intelligibilità a bassa latenza.
Le baseline generative autoregressive mostrano un degrado delle prestazioni a bassa latenza.
La ricerca è presentata nella preprint arXiv 2604.19635v1 con un tipo di annuncio cross.

Entità

—

Fonti

arXiv cs.AI — 2026-04-22