Arxiv Insights - Curated Research Intelligence

核心发现

提出DEP去中心化评估协议，通过LLM适配器、客户端和基准服务器三层架构，实现LLM评估的统一接口、模块化和可插拔性，解决现有框架碎片化和不一致问题。
DEP通过将基准测试文件和评估逻辑严格限制在服务器端，实现地面真实数据（ground truth）的隔离，有效防止测试集泄露和数据污染。
DEP允许基准作者在不修改原始数据格式的情况下集成基准，并通过DEP Toolkit提供断点续传、并发请求和拥塞控制等实用功能，降低大规模评估的部署成本。
通过对12个LLM在10个基准上的评估以及用户研究，验证了DEP的有效性，并表明其在集成和复用基准方面显著降低了时间和代码量。

实验规模

论文通过两部分实验验证DEP。首先，使用DEP Toolkit在10个基准测试（包括GSM8K、ARC、BoolQ等）上评估了12个大型语言模型（6个开源模型，参数范围0.6B-685B，如Qwen3系列、DeepSeek-V3.2、Llama3-8B-Instruct；6个闭源API模型，如Claude-Haiku-3、GPT-5o-nano），共消耗1800万tokens和130 GPU小时（NVIDIA A100 80G）。其次，进行了一项用户研究，招募8名专业人士在12个基准上比较了四种评估方法（手动实现、适配现有框架、适配DEP、复用DEP基准）的时间成本和代码量。

局限性

DEP的整体有效性依赖于社区贡献和基准适配工作量，这为基准作者带来了额外的集成负担。当前DEP主要关注LLM评估，尚无法评估涉及复杂外部交互（如Docker环境中的软件开发任务）的智能体。