NAACA: Modello Audio Senza Addestramento Migliora il Rilevamento della Salienza

ai-technology · 2026-05-14

I ricercatori hanno presentato NAACA, una nuova Architettura Cognitiva Neuro-Auditiva Attentiva progettata per migliorare le prestazioni dei modelli linguistici audio in registrazioni lunghe, trattando la distribuzione dell'attenzione come un problema di filtraggio della salienza uditiva. Centrale in questa architettura è OWM, una Memoria di Lavoro Oscillatoria neuro-ispirata che mantiene stati stabili simili ad attrattori, attivando processi cognitivi superiori solo quando variazioni energetiche adattive indicano salienza percettiva. Sul dataset XD-Violence, NAACA ha aumentato la precisione media di AudioQwen dal 53,50% al 70,60%, riducendo al contempo le attivazioni non necessarie di ALM. Inoltre, analisi qualitative del dataset Urban Soundscapes of the World (USoW) hanno mostrato la capacità di OWM di rilevare nuovi eventi e transizioni di sottocategorie, rimanendo resiliente a brevi pause.

Fatti principali

1. NAACA è un'architettura senza addestramento per modelli linguistici audio.
2. Riformula l'allocazione dell'attenzione come un problema di filtraggio della salienza uditiva.
3. OWM è una Memoria di Lavoro Oscillatoria neuro-ispirata.
4. OWM attiva l'elaborazione cognitiva superiore solo in presenza di salienza percettiva.
5. Su XD-Violence, NAACA ha migliorato l'AP di AudioQwen dal 53,50% al 70,60%.
6. NAACA ha ridotto le invocazioni non necessarie di ALM.
7. Studi qualitativi hanno utilizzato il dataset USoW.
8. OWM cattura nuovi eventi e cambi di sottocategoria.

Entità

—

Fonti

arXiv cs.AI — 2026-05-14