Il Framework HILBERT Introduce l'Allineamento Duale Contrastivo per l'Apprendimento di Rappresentazioni Audio-Testo
Un nuovo framework chiamato HILBERT (HIerarchical Long-sequence Balanced Embedding with Reciprocal contrastive Training) è stato sviluppato per facilitare l'apprendimento di rappresentazioni audio-testo a livello di documento in contesti a risorse limitate. Questo sistema utilizza encoder pre-addestrati e congelati sia per il parlato che per il linguaggio per derivare caratteristiche a livello di segmento, che vengono poi combinate utilizzando il pooling auto-attentivo e l'attenzione cross-modale. HILBERT incorpora un obiettivo contrastivo duale reciproco per sincronizzare le rappresentazioni audio-to-joint e testo-to-joint, insieme a due regolarizzatori ausiliari: una perdita di Allineamento del Kernel Centrato (CKA) e una tecnica per la regolarizzazione bilanciata dell'informazione. Lo studio, catalogato come arXiv:2604.16247v1, mira ad affrontare problemi in ambienti a risorse limitate, concentrandosi su prestazioni e stabilità senza richiedere un esteso ri-addestramento. Il framework promuove interazioni dinamiche tra le modalità audio e testo lungo l'intera sequenza.
Fatti principali
- HILBERT (HIerarchical Long-sequence Balanced Embedding with Reciprocal contrastive Training) è un framework multimodale cross-attentivo
- Apprende rappresentazioni audio-testo a livello di documento da sequenze lunghe e segmentate in contesti di dati a risorse limitate
- Il framework utilizza encoder pre-addestrati e congelati per il parlato e il linguaggio per estrarre caratteristiche a livello di segmento
- Le caratteristiche vengono aggregate tramite attenzione cross-modale e pooling auto-attentivo per formare rappresentazioni documentali specifiche per modalità e un embedding cross-attentivo congiunto
- Un obiettivo contrastivo duale reciproco allinea simultaneamente le rappresentazioni audio-to-joint e testo-to-joint
- Due regolarizzatori ausiliari stabilizzano la fusione di sequenze lunghe: una perdita di Allineamento del Kernel Centrato (CKA) e una regolarizzazione bilanciata dell'informazione
- La ricerca è stata annunciata su arXiv con identificatore arXiv:2604.16247v1 come annuncio cross-modale
- Il framework affronta il grave squilibrio dimensionale audio-testo preservando la struttura specifica di ciascuna modalità
Entità
Istituzioni
- arXiv