Game-Time: un benchmark per testare le abilità temporali dei modelli linguistici parlati

ai-technology · 2026-05-04

Un nuovo benchmark chiamato Game-Time valuta le dinamiche temporali nei modelli linguistici parlati conversazionali (SLM), tra cui tempismo, tempo e parlato simultaneo. Ispirato all'apprendimento umano delle lingue attraverso attività, include compiti di base di seguimento di istruzioni e compiti avanzati con vincoli temporali come l'aderenza al tempo e le risposte sincronizzate. La valutazione di diverse architetture SLM mostra una chiara disparità di prestazioni: i modelli all'avanguardia gestiscono bene i compiti di base, ma molti sistemi contemporanei faticano con il seguimento fondamentale delle istruzioni. Quasi tutti i modelli degradano sostanzialmente sotto vincoli temporali, evidenziando un divario critico nella fluidità conversazionale. La ricerca è pubblicata su arXiv con ID 2509.26388.

Fatti principali

Il benchmark Game-Time valuta le dinamiche temporali negli SLM
I compiti includono il seguimento di istruzioni di base e vincoli temporali avanzati
I modelli all'avanguardia performano bene sui compiti di base
Molti sistemi contemporanei faticano con il seguimento fondamentale delle istruzioni
Quasi tutti i modelli degradano sotto vincoli temporali
Ricerca pubblicata su arXiv con ID 2509.26388
Ispirato all'apprendimento umano delle lingue attraverso attività

Game-Time: un benchmark per testare le abilità temporali dei modelli linguistici parlati

Fatti principali

Entità

Istituzioni

Fonti