Arxiv Insights - Curated Research Intelligence

核心发现

将人类移动预测拆成特征优化、用户画像、模型迁移三层 agent 协作，以显式特征池和权重更新替代纯黑箱推理，目标是提升可解释性与可迁移性。
四类标准特征池（轨迹/空间/记忆/社交）+ LLM 自动生成新特征 + 以 Acc@1/Acc@5 为代理目标的迭代选特征，说明局部收益主要来自特征工程而非端到端学习。
基于轨迹的用户分群能把特征选择从逐个用户改为群组级协同，减少过拟合并改善部分城市的 Acc@1，但对 Acc@5 和 NDCG@5 的稳定收益有限。
通过大模型向小模型、同城换用户、跨城/多城融合迁移复用用户画像与特征权重，证明部分知识可转移，但小模型仍明显落后且跨城效果受分布偏移强烈影响。

实验规模

在 4 个城市/数据集上评测：Shanghai(ISP)、Moscow、Tokyo、Saopaulo；Foursquare 数据按 72 小时窗口切分会话，ISP 按天合并，过滤少于 4 次停留的会话和少于 5 个会话的用户。ARMove 作为零样本框架，不做端到端训练，而是用全量历史轨迹构建提示词，在每城抽样 200 条测试轨迹上评估 Acc@1、Acc@5、NDCG@5。对比 10 个基线（FPMC、RNN、DeepMove、LSTPM、GETNext、STHGCN、LLM-Mob、LLM-ZS、LLM-Move、AgentMove），并做 GPT-4o-mini→Llama3-8B 的大小模型迁移、同城换用户和跨城迁移实验。

局限性

方法核心更像提示词驱动的特征工程和规则化迭代，而非真正可验证的学习机制，因而“agentic reasoning”带来的增益难以与工程设计清晰解耦。实验只覆盖 4 个城市且每城仅抽样 200 条测试轨迹，跨城与小模型迁移的结论对分布偏移非常敏感，泛化范围有限。部分消融表与主表数值接近甚至回退，且若干提升幅度不稳定，说明论文对“全方位优于 SOTA”的论证并不充分。