ChinaTravel: un benchmark per agenti linguistici nella pianificazione di viaggi aperti
I ricercatori hanno presentato ChinaTravel, un benchmark per valutare gli agenti linguistici in compiti di pianificazione di viaggio aperti. A differenza dei benchmark esistenti che utilizzano il riempimento di slot con menu di vincoli predefiniti, ChinaTravel cattura la natura compositiva, diversificata e spesso implicita dei requisiti reali degli utenti. Il benchmark presenta un sandbox pratico allineato con la pianificazione di viaggi multi-giorno e multi-POI, un linguaggio specifico del dominio (DSL) per una valutazione scalabile che copre fattibilità, soddisfacimento dei vincoli e confronto delle preferenze, e un dataset aperto che integra diversi requisiti di viaggio e intenti impliciti da 1.154 partecipanti umani. Il lavoro è dettagliato in arXiv:2412.13682v5.
Fatti principali
- ChinaTravel è un benchmark per agenti linguistici nella pianificazione di viaggi.
- Affronta il divario dell'interazione in linguaggio naturale aperta.
- Include un sandbox pratico per la pianificazione multi-giorno e multi-POI.
- Utilizza un linguaggio specifico del dominio (DSL) per una valutazione scalabile.
- Il dataset integra requisiti da 1.154 partecipanti umani.
- Si concentra sulla validazione compositiva dei vincoli.
- Pubblicato su arXiv con ID 2412.13682v5.
- Sostituisce il paradigma del riempimento di slot con query aperte.
Entità
Istituzioni
- arXiv