TransitLM:无地图公交路线生成的大规模数据集与基准
TransitLM: A Large-Scale Dataset and Benchmark for Map-Free Transit Route Generation
来自 AMAP-ML
摘要
传统公共交通路线规划依赖于结构化的地图基础设施和复杂的路由引擎,目前尚无数据集支持训练模型绕过这一依赖。我们提出 TransitLM——一个包含来自中国四座城市超过 1300 万条公交路线规划记录的大规模数据集,覆盖 120,845 个站点和 13,666 条线路。该数据集以持续预训练语料库和基准数据的形式发布,用于三项评估任务,并配有互补性指标。实验表明,在 TransitLM 上训练的大语言模型(LLM)能够以高准确率生成结构有效的路线,并隐式地将任意 GPS 坐标映射到合适的站点,无需任何显式地图匹配。这些结果证明,公交路线规划可以完全从数据中学习,从而实现直接从起终点信息生成路线的端到端、无地图路线规划。数据集和基准测试可在 https://huggingface.co/datasets/GD-ML/TransitLM 获取,评估代码见 https://github.com/HotTricker/TransitLM。
译自 Hugging Face · Daily Papers · arXiv:2605.22355 · 录于 二〇二六年五月二十二日