ATIR: Nuovo Benchmark per il Recupero Interleaved Audio-Testo
Un nuovo compito chiamato Recupero Contestuale Interleaved Audio-Testo (ATIR) è stato introdotto dai ricercatori, consentendo alle query di alternarsi tra formati audio e testo. Hanno sviluppato un benchmark che combina dataset di ASR, QA e recupero, unendo efficacemente quattro distinti tipi di sfide di recupero contestuale. Questa ricerca affronta le carenze degli attuali dataset di recupero audio nel recupero semantico. Il team valuta vari recuperatori già pronti e addestra un modello ATIR utilizzando un Modello Linguistico Multimodale di Grandi Dimensioni.
Fatti principali
- ATIR sta per Recupero Contestuale Interleaved Audio-Testo.
- Le query possono alternarsi tra modalità audio e testo.
- Il benchmark integra dataset di ASR, QA e recupero.
- Unifica quattro tipi di compiti di recupero contestuale.
- Affronta le limitazioni degli attuali dataset di recupero audio.
- Valuta diversi recuperatori già pronti.
- Il modello ATIR si basa su un Modello Linguistico Multimodale di Grandi Dimensioni.
- Pubblicato su arXiv con ID 2604.20267.
Entità
Istituzioni
- arXiv