自然语言处理★ 评分 4.8
Per-Entity Bias Mapping for AI Visibility: Why Brand Mentions Require Entity-Specific Calibration
Zoltan Varga
2026年6月25日
关键词
AI可见性实体级偏差映射幻觉引用知识图谱参数-检索时滞
核心发现
- 仅看品牌提及率会掩盖本质差异:同样的 raw mention 可能对应“准确且可验证”与“高曝光但大量失实”两种完全不同的风险画像,因此需要把实体作为分析单位而不是平台均值。
- 在 100 个匈牙利 B2B 实体、1,400 次 probe、2,062 条来源中,高显著性 Tier 1 的虚构来源率为 52.69%,显著高于 Tier 3 的 37.87%,支持“品牌越熟悉,越容易触发错误补全/错引来源”的 Brand Hallucination Paradox。
- 查询框架会强烈改变幻觉率:监管合规类查询的虚构率达到 56.77%,显著高于事实型基线 37.59%,说明“合规/审计”措辞本身就是一个被动的对抗放大面。
- 知识基础设施越强,错误越少:英语 Wikipedia 存在与更低的来源虚构概率显著相关,而匈牙利 Wikipedia 和 Wikidata 的独立效应不稳定,说明英语语料与可检索锚点在训练分布中更关键。
- 论文把可见性拆成十个维度,进一步区分 raw mention、verified mention、citation fidelity、parametric-retrieval lag 等,核心逻辑是把 AI 可见性从“曝光量”改造成“实体级误差剖面”。
实验规模
实验主样本为 100 个匈牙利 B2B 实体,分为 50 个高显著性 Tier 1 与 50 个低显著性 Tier 3;每个实体在 2 个参数型 LLM 平台上各使用 7 个匈牙利语、强制给出 URL/DOI 的查询模板,共 1,400 次 probe。平台为 Anthropic Claude(claude-sonnet-4-6,temperature=0.3)与 OpenAI GPT-4o(gpt-4o-2024-08-06,temperature=0.3);共抽取 2,062 条来源并用 HTTP HEAD 与 Crossref DOI 进行非 AI 验证,同时对 100 个实体做 Wikipedia(EN/HU)与 Wikidata 覆盖度审计。另有一个 2 实体、4 平台的 pilot 用于对比参数型与检索增强型系统,外加 90 条来源的人类编码样本准备做一致性评估。
局限性
样本高度地域化,结论主要来自匈牙利 B2B 实体,且只覆盖两个参数型模型,外推到其他语言、行业、平台和检索增强系统的可信度有限。统计上把来源当作独立观测存在明显聚类违背,且 HTTP 失败只能证明“不可验证”不等于“伪造”,会抬高虚构率估计;文中关于拒绝诱发升级、对抗放大、ghost cartography 等机制性解释也缺少直接消融或因果实验支撑。总体上,这是一篇有可测量现象但理论包装很重、因果证据不足的工作。