JASTIN: Nuovo Framework per la Valutazione Audio Zero-Shot tramite LLM
Un nuovo framework chiamato JASTIN è stato introdotto dai ricercatori, progettato per la valutazione audio generalizzabile guidata da istruzioni. Questo sistema tratta la valutazione audio come una sfida di ragionamento auto-istruito, collegando un codificatore audio ad alte prestazioni con un backbone LLM ottimizzato attraverso un adattatore audio addestrabile. Per garantire una forte generalizzazione zero-shot, viene implementata una pipeline di dati per il follow-up delle istruzioni (Multi-Source, Multi-Task, Multi-Calibration, Multi-Description). JASTIN stabilisce nuovi record nelle correlazioni di Pearson e Spearman rispetto alle valutazioni soggettive umane, affrontando efficacemente le carenze delle attuali metriche oggettive e dei LLM multimodali riguardo alla generalizzazione di dominio e all'adattabilità alle istruzioni.
Fatti principali
- JASTIN è un framework di valutazione audio generalizzabile e guidato da istruzioni
- Formula la valutazione audio come un compito di ragionamento auto-istruito
- Collega un codificatore audio congelato con un backbone LLM ottimizzato tramite un adattatore addestrabile
- Utilizza una pipeline di dati Multi-Source, Multi-Task, Multi-Calibration, Multi-Description
- Raggiunge correlazioni all'avanguardia con le valutazioni soggettive umane
- Affronta la generalizzazione di dominio e le capacità zero-shot
- Proposto nell'articolo arXiv 2605.04505
- Si concentra sulla valutazione di modelli audio generativi
Entità
Istituzioni
- arXiv