Game-Time: un benchmark per testare le abilità temporali dei modelli linguistici parlati
Un nuovo benchmark chiamato Game-Time valuta le dinamiche temporali nei modelli linguistici parlati conversazionali (SLM), tra cui tempismo, tempo e parlato simultaneo. Ispirato all'apprendimento umano delle lingue attraverso attività, include compiti di base di seguimento di istruzioni e compiti avanzati con vincoli temporali come l'aderenza al tempo e le risposte sincronizzate. La valutazione di diverse architetture SLM mostra una chiara disparità di prestazioni: i modelli all'avanguardia gestiscono bene i compiti di base, ma molti sistemi contemporanei faticano con il seguimento fondamentale delle istruzioni. Quasi tutti i modelli degradano sostanzialmente sotto vincoli temporali, evidenziando un divario critico nella fluidità conversazionale. La ricerca è pubblicata su arXiv con ID 2509.26388.
Fatti principali
- Il benchmark Game-Time valuta le dinamiche temporali negli SLM
- I compiti includono il seguimento di istruzioni di base e vincoli temporali avanzati
- I modelli all'avanguardia performano bene sui compiti di base
- Molti sistemi contemporanei faticano con il seguimento fondamentale delle istruzioni
- Quasi tutti i modelli degradano sotto vincoli temporali
- Ricerca pubblicata su arXiv con ID 2509.26388
- Ispirato all'apprendimento umano delle lingue attraverso attività
Entità
Istituzioni
- arXiv