自然语言处理★ 评分 6.8
Individual Turing Test: A Case Study of LLM-based Simulation Using Longitudinal Personal Data
Minghao Guo, Ziyi Ye, Wujiang Xu, Xi Zhu, Wenyue Hua, Dimitris N. Metaxas
2026年3月3日
关键词
个体图灵测试LLM个体模拟长期数据风格与内容权衡
核心发现
- LLM个体模拟在“个体图灵测试”(熟人评判)中失败,但在“通用图灵测试”(陌生人评判)中表现良好,表明通用类人性不等于身份级真实性。
- 混合方法(参数化适应+非参数化检索/记忆)在个体模拟中表现最佳,优于单一方法,因其能同时捕捉语言风格(参数化)和意见一致性(非参数化)。
- 历史消息数据的时序范围对LLM性能有显著影响,性能提升在约八年后趋于饱和,过远的历史数据可能引入噪声。
实验规模
本研究基于一名志愿者超过十年的私人消息历史数据,包含12,151个对话、72,652条消息和1,157,842个训练token。实验以Qwen2.5-7B为基础模型,对比了LoRA微调、RAG、A-Mem以及它们的混合方法。评估采用“个体图灵测试”(7名熟人评判)和“通用图灵测试”(5名陌生人评判)两种人类判断范式,并辅以BLEU-1/2、ROUGE-L等自动化指标,涵盖日常对话和个人观点两类共60个提示。
局限性
该研究是基于单一志愿者数据的案例分析,其结论的普适性受限,难以直接推广到其他个体或更广泛的用户群体。此外,人类评估者数量相对较少(7名熟人,5名陌生人),可能影响评估结果的统计稳健性。论文虽揭示了“真实性差距”,但未提出超越现有技术组合的创新性方法来弥合此差距。