EchoDistill: Nuovo framework per rendere gli LLM audio robusti al rumore
I ricercatori hanno proposto EchoDistill, un framework di auto-distillazione progettato per migliorare la robustezza dei Grandi Modelli Linguistici Audio (ALLM) contro il rumore del mondo reale. È noto che gli ALLM soffrono di deriva semantica e allucinazioni quando esposti ad ambienti rumorosi. Le soluzioni esistenti si basano sul miglioramento a livello di forma d'onda, sulla supervisione a livello di risposta o sulla soppressione interna del rumore. EchoDistill introduce un approccio basato sull'allineamento da rumoroso a pulito, utilizzando un insegnante audio pulito congelato per guidare uno studente audio rumoroso durante l'inferenza. Lo studente campiona risposte candidate in condizioni rumorose e queste traiettorie vengono ottimizzate tramite l'ottimizzazione delle politiche relative al gruppo (GRPO), con la coerenza a livello di token con l'insegnante che funge da ricompensa. Il metodo incorpora anche un modellamento della ricompensa sensibile all'audio. Il framework è stato dettagliato in un articolo pubblicato su arXiv (ID: 2605.23954).
Fatti principali
- EchoDistill è un framework di auto-distillazione da rumoroso a pulito per LLM audio.
- Affronta la vulnerabilità al rumore del mondo reale che causa deriva semantica e allucinazioni.
- I metodi esistenti utilizzano il miglioramento a livello di forma d'onda, la supervisione a livello di risposta o la soppressione del rumore.
- EchoDistill utilizza un insegnante audio pulito congelato per guidare uno studente audio rumoroso.
- Lo studente campiona risposte candidate in condizioni rumorose.
- L'ottimizzazione utilizza l'ottimizzazione delle politiche relative al gruppo (GRPO).
- La coerenza a livello di token con l'insegnante funge da bonus di ricompensa.
- L'articolo è disponibile su arXiv con ID 2605.23954.
Entità
Istituzioni
- arXiv