Arxiv Insights - Curated Research Intelligence

核心发现

仅看品牌提及率会掩盖本质差异：同样的 raw mention 可能对应“准确且可验证”与“高曝光但大量失实”两种完全不同的风险画像，因此需要把实体作为分析单位而不是平台均值。
在 100 个匈牙利 B2B 实体、1,400 次 probe、2,062 条来源中，高显著性 Tier 1 的虚构来源率为 52.69%，显著高于 Tier 3 的 37.87%，支持“品牌越熟悉，越容易触发错误补全/错引来源”的 Brand Hallucination Paradox。
查询框架会强烈改变幻觉率：监管合规类查询的虚构率达到 56.77%，显著高于事实型基线 37.59%，说明“合规/审计”措辞本身就是一个被动的对抗放大面。
知识基础设施越强，错误越少：英语 Wikipedia 存在与更低的来源虚构概率显著相关，而匈牙利 Wikipedia 和 Wikidata 的独立效应不稳定，说明英语语料与可检索锚点在训练分布中更关键。
论文把可见性拆成十个维度，进一步区分 raw mention、verified mention、citation fidelity、parametric-retrieval lag 等，核心逻辑是把 AI 可见性从“曝光量”改造成“实体级误差剖面”。

实验规模

实验主样本为 100 个匈牙利 B2B 实体，分为 50 个高显著性 Tier 1 与 50 个低显著性 Tier 3；每个实体在 2 个参数型 LLM 平台上各使用 7 个匈牙利语、强制给出 URL/DOI 的查询模板，共 1,400 次 probe。平台为 Anthropic Claude（claude-sonnet-4-6，temperature=0.3）与 OpenAI GPT-4o（gpt-4o-2024-08-06，temperature=0.3）；共抽取 2,062 条来源并用 HTTP HEAD 与 Crossref DOI 进行非 AI 验证，同时对 100 个实体做 Wikipedia（EN/HU）与 Wikidata 覆盖度审计。另有一个 2 实体、4 平台的 pilot 用于对比参数型与检索增强型系统，外加 90 条来源的人类编码样本准备做一致性评估。

局限性

样本高度地域化，结论主要来自匈牙利 B2B 实体，且只覆盖两个参数型模型，外推到其他语言、行业、平台和检索增强系统的可信度有限。统计上把来源当作独立观测存在明显聚类违背，且 HTTP 失败只能证明“不可验证”不等于“伪造”，会抬高虚构率估计；文中关于拒绝诱发升级、对抗放大、ghost cartography 等机制性解释也缺少直接消融或因果实验支撑。总体上，这是一篇有可测量现象但理论包装很重、因果证据不足的工作。