Arxiv Insights - Curated Research Intelligence

核心发现

QRAFTI将量化研究拆成研究、报告、代码三个角色，并通过Panel API与MCP工具把面板数据上的截面排序、滚动变换、组合构造等操作标准化，同时保留计算图与执行轨迹，提升可审计性。
在HML价值因子和JKP风格动量因子的复现中，系统能生成接近基准的因子序列；Table 1显示全工具配置在1步和2步任务上几乎满分，而多步任务加入reflection-planning后Sim@1从0.7435提升到0.9858，说明显式自检能明显减少长流程错误。
当内置工具不足时，代码代理可补写并执行Python以扩展能力，EWMA示例表明其能产出与参考实现一致的面板结果，但论文主要证明的是工作流自动化可行，而不是发现了新的金融规律。

实验规模

基于CRSP Stocks Monthly和Compustat Annual预处理后的面板数据，围绕两个复现工作流（Fama-French HML价值因子、JKP风格价格动量因子）和一个动态代码生成示例（指数加权移动平均特征）进行评估。每个查询重复5次，比较All tools、Coding-tool only、All tools + reflection-planning三种配置，用Sim@1/2/5、与基准因子序列的余弦相似度以及散点图对齐程度衡量结果；参考基准来自Ken French网站和Jensen et al. (2023) 的因子收益序列。

局限性

评估规模偏小，主要是两个因子复现和一个自定义特征示例，且指标高度依赖作者自建的Sim@k与余弦相似度，难以证明对更广泛金融研究任务的外推能力。论文几乎没有与其他强代理框架或人工研究流程做系统对比，也缺少失败案例、成本/时延、错误传播和跨数据版本稳健性的严格消融，因此更像概念验证。尽管系统强调可解释与可复现，但这些性质更多来自工程化日志与计算图展示，尚不足以替代严格的外部验证。