ARTFEED — Contemporary Art Intelligence

Game-Time: un benchmark per testare le abilità temporali dei modelli linguistici parlati

ai-technology · 2026-05-04

Un nuovo benchmark chiamato Game-Time valuta le dinamiche temporali nei modelli linguistici parlati conversazionali (SLM), tra cui tempismo, tempo e parlato simultaneo. Ispirato all'apprendimento umano delle lingue attraverso attività, include compiti di base di seguimento di istruzioni e compiti avanzati con vincoli temporali come l'aderenza al tempo e le risposte sincronizzate. La valutazione di diverse architetture SLM mostra una chiara disparità di prestazioni: i modelli all'avanguardia gestiscono bene i compiti di base, ma molti sistemi contemporanei faticano con il seguimento fondamentale delle istruzioni. Quasi tutti i modelli degradano sostanzialmente sotto vincoli temporali, evidenziando un divario critico nella fluidità conversazionale. La ricerca è pubblicata su arXiv con ID 2509.26388.

Fatti principali

  • Il benchmark Game-Time valuta le dinamiche temporali negli SLM
  • I compiti includono il seguimento di istruzioni di base e vincoli temporali avanzati
  • I modelli all'avanguardia performano bene sui compiti di base
  • Molti sistemi contemporanei faticano con il seguimento fondamentale delle istruzioni
  • Quasi tutti i modelli degradano sotto vincoli temporali
  • Ricerca pubblicata su arXiv con ID 2509.26388
  • Ispirato all'apprendimento umano delle lingue attraverso attività

Entità

Istituzioni

  • arXiv

Fonti