TransitLM: Dataset su larga scala per la generazione di percorsi di transito senza mappe
TransitLM, un dataset di nuova introduzione, comprende oltre 13 milioni di record relativi alla pianificazione di percorsi di transito da quattro città in Cina, includendo 120.845 stazioni e 13.666 linee. Questo dataset funge sia da corpus di pre-addestramento continuo che da benchmark per tre compiti di valutazione. I risultati indicano che un modello linguistico di grandi dimensioni (LLM) addestrato su TransitLM produce percorsi strutturalmente solidi e altamente accurati, associando efficacemente le coordinate GPS alle stazioni senza bisogno di mappe esplicite. Ciò illustra che la pianificazione dei percorsi di transito può essere appresa in modo completo solo dai dati. Il dataset e il suo benchmark sono accessibili su Hugging Face.
Fatti principali
- Il dataset include oltre 13 milioni di record di pianificazione di percorsi di transito.
- Copre quattro città cinesi.
- Include 120.845 stazioni e 13.666 linee.
- Utilizzato come corpus di pre-addestramento continuo e benchmark.
- Tre compiti di valutazione con metriche complementari.
- LLM addestrato su TransitLM produce percorsi strutturalmente validi con alta accuratezza.
- Associa implicitamente coordinate GPS arbitrarie alle stazioni appropriate senza mappatura esplicita.
- Dataset disponibile su https://huggingface.co/datasets/GD-ML/TransitLM
Entità
Istituzioni
- arXiv
- Hugging Face
Luoghi
- China