Il benchmark MMTB valuta gli agenti AI su compiti terminali multimediali
Un nuovo benchmark chiamato MultiMedia-TerminalBench (MMTB) è stato lanciato da ricercatori, comprendente 105 compiti suddivisi in 5 meta-categorie, volto a valutare agenti AI basati su terminale nella gestione di file multimediali. Mentre gli attuali benchmark per agenti terminali riguardano principalmente testo, codice e file strutturati, le applicazioni pratiche includono spesso elementi audio e video. MMTB sfida gli agenti a interpretare informazioni multimediali e tradurre input uditivi e visivi in risposte attuabili. Oltre a MMTB, i ricercatori hanno introdotto Terminus-MM, che potenzia Terminus-KIRA incorporando la percezione audio e video. Questo sviluppo facilita un esame sistematico degli agenti terminali multimediali.
Fatti principali
- MMTB include 105 compiti in 5 meta-categorie
- I compiti coinvolgono operazioni dirette con file audio e video
- I benchmark esistenti si concentrano su testo, codice e file strutturati
- Terminus-MM estende Terminus-KIRA con percezione audio e video
- Il benchmark valuta la comprensione di contenuti multimediali e la conversione di prove in azioni
- Il lavoro è pubblicato su arXiv con ID 2605.10966
- Il tipo di annuncio è cross
- La ricerca supporta lo studio controllato di agenti terminali multimediali
Entità
Istituzioni
- arXiv