自然语言处理★ 评分 5.8
DEP: A Decentralized Large Language Model Evaluation Protocol
Jianxiang Peng, Junhao Li, Hongxiang Wang, Haocheng Lyu, Hui Guo, Siyi Hao, Zhen Wang, Chuang Liu, Shaowei Zhang, Bojian Xiong, Yue Chen, Zhuowen Han, Ling Shi, Tianyu Dong, Juesi Xiao, Lei Yang, Yuqi Ren, Deyi Xiong
2026年3月3日
关键词
大语言模型评估去中心化协议基准测试数据隐私评估框架
核心发现
- 提出DEP去中心化评估协议,通过LLM适配器、客户端和基准服务器三层架构,实现LLM评估的统一接口、模块化和可插拔性,解决现有框架碎片化和不一致问题。
- DEP通过将基准测试文件和评估逻辑严格限制在服务器端,实现地面真实数据(ground truth)的隔离,有效防止测试集泄露和数据污染。
- DEP允许基准作者在不修改原始数据格式的情况下集成基准,并通过DEP Toolkit提供断点续传、并发请求和拥塞控制等实用功能,降低大规模评估的部署成本。
- 通过对12个LLM在10个基准上的评估以及用户研究,验证了DEP的有效性,并表明其在集成和复用基准方面显著降低了时间和代码量。
实验规模
论文通过两部分实验验证DEP。首先,使用DEP Toolkit在10个基准测试(包括GSM8K、ARC、BoolQ等)上评估了12个大型语言模型(6个开源模型,参数范围0.6B-685B,如Qwen3系列、DeepSeek-V3.2、Llama3-8B-Instruct;6个闭源API模型,如Claude-Haiku-3、GPT-5o-nano),共消耗1800万tokens和130 GPU小时(NVIDIA A100 80G)。其次,进行了一项用户研究,招募8名专业人士在12个基准上比较了四种评估方法(手动实现、适配现有框架、适配DEP、复用DEP基准)的时间成本和代码量。
局限性
DEP的整体有效性依赖于社区贡献和基准适配工作量,这为基准作者带来了额外的集成负担。当前DEP主要关注LLM评估,尚无法评估涉及复杂外部交互(如Docker环境中的软件开发任务)的智能体。