ARTFEED — Contemporary Art Intelligence

Il Framework HILBERT Introduce l'Allineamento Duale Contrastivo per l'Apprendimento di Rappresentazioni Audio-Testo

ai-technology · 2026-04-20

Un nuovo framework chiamato HILBERT (HIerarchical Long-sequence Balanced Embedding with Reciprocal contrastive Training) è stato sviluppato per facilitare l'apprendimento di rappresentazioni audio-testo a livello di documento in contesti a risorse limitate. Questo sistema utilizza encoder pre-addestrati e congelati sia per il parlato che per il linguaggio per derivare caratteristiche a livello di segmento, che vengono poi combinate utilizzando il pooling auto-attentivo e l'attenzione cross-modale. HILBERT incorpora un obiettivo contrastivo duale reciproco per sincronizzare le rappresentazioni audio-to-joint e testo-to-joint, insieme a due regolarizzatori ausiliari: una perdita di Allineamento del Kernel Centrato (CKA) e una tecnica per la regolarizzazione bilanciata dell'informazione. Lo studio, catalogato come arXiv:2604.16247v1, mira ad affrontare problemi in ambienti a risorse limitate, concentrandosi su prestazioni e stabilità senza richiedere un esteso ri-addestramento. Il framework promuove interazioni dinamiche tra le modalità audio e testo lungo l'intera sequenza.

Fatti principali

  • HILBERT (HIerarchical Long-sequence Balanced Embedding with Reciprocal contrastive Training) è un framework multimodale cross-attentivo
  • Apprende rappresentazioni audio-testo a livello di documento da sequenze lunghe e segmentate in contesti di dati a risorse limitate
  • Il framework utilizza encoder pre-addestrati e congelati per il parlato e il linguaggio per estrarre caratteristiche a livello di segmento
  • Le caratteristiche vengono aggregate tramite attenzione cross-modale e pooling auto-attentivo per formare rappresentazioni documentali specifiche per modalità e un embedding cross-attentivo congiunto
  • Un obiettivo contrastivo duale reciproco allinea simultaneamente le rappresentazioni audio-to-joint e testo-to-joint
  • Due regolarizzatori ausiliari stabilizzano la fusione di sequenze lunghe: una perdita di Allineamento del Kernel Centrato (CKA) e una regolarizzazione bilanciata dell'informazione
  • La ricerca è stata annunciata su arXiv con identificatore arXiv:2604.16247v1 come annuncio cross-modale
  • Il framework affronta il grave squilibrio dimensionale audio-testo preservando la struttura specifica di ciascuna modalità

Entità

Istituzioni

  • arXiv

Fonti