ARTFEED — Contemporary Art Intelligence

WASIL: Dataset di Interazione Vocale in Arabo per LLM

ai-technology · 2026-05-20

Un nuovo dataset chiamato WASIL è stato introdotto dai ricercatori, comprendente 8.529 prompt di interazione vocale in arabo raccolti in contesti reali. Questo dataset include registrazioni audio, ipotesi ASR, risposte dell'assistente e feedback degli utenti, con il 14,2% di feedback negativi. Contiene anche un set di test di 2.000 turni che coprono l'arabo standard moderno e quattro dialetti principali. Le trascrizioni gold sono state prodotte a basso costo attraverso un post-editing guidato da accordo multi-ASR, mentre i turni sono stati annotati per distinguere tra non rispondibilità intrinseca ed errori legati all'ASR. Questa iniziativa facilita la valutazione scalabile e senza riferimento delle risposte degli LLM all'interno dei sistemi di assistente vocale in arabo.

Fatti principali

  • Il dataset WASIL contiene 8.529 turni di interazione vocale
  • Il 14,2% dei turni ha feedback negativo
  • Il set di test di 2.000 turni copre l'arabo standard moderno e quattro dialetti
  • Trascrizioni gold tramite post-editing guidato da accordo multi-ASR
  • Annotazione della rispondibilità per separare la non rispondibilità dagli errori ASR
  • Il dataset consente la valutazione senza riferimento delle risposte degli LLM

Entità

Fonti