VeriTrip: Nuovo Benchmark Valuta gli Agenti di Pianificazione Viaggi su Dati Web Non Strutturati
Un nuovo benchmark chiamato VeriTrip è stato sviluppato da ricercatori per valutare gli agenti di pianificazione viaggi, superando i tradizionali metodi basati su API per testare la loro resilienza su dati web multimodali non strutturati. Questo benchmark affronta significative sfide cognitive, tra cui il rumore informativo, fatti contrastanti da fonti diverse e l'integrazione della percezione visiva nella pianificazione logica. VeriTrip presenta una Base di Recupero Multimodale (MRB) proveniente da informazioni del mondo reale, costringendo gli agenti a gestire autonomamente le query su diversi set di dati. Inoltre, incorpora una Base di Conoscenza Verificabile sincronizzata per supportare il ragionamento basato su prove. Questa ricerca è dettagliata in un articolo disponibile su arXiv con ID 2605.28683.
Fatti principali
- VeriTrip è un benchmark verificabile per agenti di pianificazione viaggi.
- Sposta la valutazione da un approccio incentrato sulle API a un ragionamento basato su prove su corpora web non strutturati.
- Il benchmark include una Base di Recupero Multimodale (MRB) da fonti del mondo reale.
- Affronta il rumore informativo, le contraddizioni fattuali e l'ancoraggio della percezione visiva.
- Una Base di Conoscenza Verificabile sincronizzata supporta la valutazione.
- L'articolo è disponibile su arXiv con ID 2605.28683.
Entità
Istituzioni
- arXiv