ARTFEED — Contemporary Art Intelligence

ChinaTravel: un benchmark per agenti linguistici nella pianificazione di viaggi aperti

publication · 2026-04-30

I ricercatori hanno presentato ChinaTravel, un benchmark per valutare gli agenti linguistici in compiti di pianificazione di viaggio aperti. A differenza dei benchmark esistenti che utilizzano il riempimento di slot con menu di vincoli predefiniti, ChinaTravel cattura la natura compositiva, diversificata e spesso implicita dei requisiti reali degli utenti. Il benchmark presenta un sandbox pratico allineato con la pianificazione di viaggi multi-giorno e multi-POI, un linguaggio specifico del dominio (DSL) per una valutazione scalabile che copre fattibilità, soddisfacimento dei vincoli e confronto delle preferenze, e un dataset aperto che integra diversi requisiti di viaggio e intenti impliciti da 1.154 partecipanti umani. Il lavoro è dettagliato in arXiv:2412.13682v5.

Fatti principali

  • ChinaTravel è un benchmark per agenti linguistici nella pianificazione di viaggi.
  • Affronta il divario dell'interazione in linguaggio naturale aperta.
  • Include un sandbox pratico per la pianificazione multi-giorno e multi-POI.
  • Utilizza un linguaggio specifico del dominio (DSL) per una valutazione scalabile.
  • Il dataset integra requisiti da 1.154 partecipanti umani.
  • Si concentra sulla validazione compositiva dei vincoli.
  • Pubblicato su arXiv con ID 2412.13682v5.
  • Sostituisce il paradigma del riempimento di slot con query aperte.

Entità

Istituzioni

  • arXiv

Fonti