Arxiv Insights

Curated Research Insights • AI & Machine Learning

自然语言处理★ 6.6

Scaling Diverse Language Generation for 3D Visual Grounding

Austin T. Wang, Dongchen Yang, Angel X. Chang

提出 ViGiL3D++：通过“场景图抽取 + 约束采样 + LLM 重述”自动生成更高有效性、更多样的 3D 视觉 grounding 查询，并用于训练更强的 3DVG 模型。

3D视觉 grounding场景图约束采样语言多样性3D数据集生成

自然语言处理★ 5.8

Event Ontology Expansion via LLM-Based Conceptualization

Weicheng Ren, Zixuan Li, Long Bai, Xiaolong Jin, Jiafeng Guo, Xueqi Cheng

用LLM为事件触发词抽取概念级语义，并将其与触发信息联合编码，从而同时提升事件聚类、层级扩展和类型命名。

事件本体扩展LLM概念化事件聚类层级扩展类型命名

自然语言处理★ 4.8

FiLM-Coordinated Dual-Branch Transformer for Global-Local Dependency Modeling in Language Modeling

Zhiqiang Zhou, Xu Ling, Junliang Dai

在同一层内把全局分支和局部分支分开建模，再用双向 FiLM 做通道级动态协调，以固定轻量预算提升语言建模中的全局-局部依赖表达。

FiLM调制双分支Transformer全局局部建模语言模型特征线性调制

自然语言处理★ 5.9

Phonemes to the Rescue: Multilingual Tokenization Based on International Phonetic Alphabet

Milan Miletić, Julie Kallini, Ekaterina Shutova

用IPA作为多语言子词分词器的统一输入表示，能够显著缓解不同脚本和不同资源语言之间的分词不公平，并在不损失下游性能的前提下提升压缩效率。

多语言分词IPA子词tokenizationG2P转写跨语言公平性

自然语言处理★ 4.0

A Multi-Agent Audit Framework for High-Stakes Reasoning: Evaluation and Interpretability in Clinical Mental Health Screening

Jingchen Ye, Yanpei Yu, Luyao Zhang

将DAIC-WOZ抑郁筛查拆成“感知-检索-推理-审计”四阶段的多智能体流程，能在不微调模型的前提下小幅降低PHQ-8预测误差并显著提升推理可解释性。

多智能体系统临床心理筛查DAIC-WOZPHQ-8抑郁预测检索增强生成

自然语言处理★ 5.4

LLM-Based Multi-Reference Evaluation for Efficient and Robust Assessment of Phrase Break Annotations

Younghan Park, Hoyeon Lee, Hawon Jeong, Jong-Hwan Kim

用LLM从少量示例生成多重可接受参考，替代单一金标准来更稳健地评估短语断句标注。

短语边界预测多参考评估大语言模型韩语语音合成人工判断

自然语言处理★ 5.8

Scalable Hierarchical Attention Transformers for Multi-Turn Jailbreak Detection in Long Conversations

Chenhui Hu, Muhammed Salih, Sudipto Guha, Subramanian Srinivasan

提出一种两级层次化注意力检测器，将每轮独立编码与会话级Transformer结合，在不拼接长上下文的前提下识别多轮越狱对话。

多轮越狱检测层次化Transformer对话级分类交叉注意力安全对齐

自然语言处理★ 5.6

Who Checks the Citations? Benchmarking Legal Hallucination Detection

Patty Liu, Dominik Stammbach, Peter Henderson

构建了面向法律引文幻觉检测的 LePhantomCite 基准，并证明即便最强代理式检索系统也只能部分缓解法律引文核验问题，尤其难以稳定识别错误 pincite、误引和内容篡改。

法律引文幻觉代理式验证Bluebook引注法律基准数据集Westlaw/CourtListener

自然语言处理★ 5.6

GRAG: Generic Response-Augmented Generation Framework for Personalized Conversational Systems

Junfeng Liu, Christopher T. Symons, Ranga Raju Vatsavai

用大型通用LLM先生成无个性但结构完整的“泛化回复”作为脚手架，再训练小模型只负责注入人格，从而提升个性化对话的上下文对齐与生成质量。

个性化对话生成泛化回复脚手架人格注入Post-fusion架构对比JEPA学习

自然语言处理★ 5.4

AdaMem: Learning What to Remember for Personalized Long-Horizon LLM Agents

Xingyu Chen, Rui Wang, Zhaopeng Tu, Liefeng Bo

AdaMem把个性化长程记忆从“尽量全记”改成“按用户偏好决定该记什么”，并通过每周反馈驱动的政策补丁持续收敛到更高的QA准确率与更小的记忆体积。

长程记忆个性化LLM代理记忆政策反馈自反思检索增强生成

自然语言处理★ 3.9

Beyond Hooking Onto the World: Referential Profiles and the Numerical Structure of LLM Grounding

Joo Yull Rhee

将LLM的“指称”从单点词-物体连接改写为可被训练参数化、可在上下文中恢复的“参照画像”，并据此主张模型只能获得派生式、语言中介的向量化指称。

大语言模型地面化指称理论参照画像机械可解释性分布式表示

自然语言处理★ 5.4

When Context Misleads: Surprisal, Energy and Attention Entropy as Metrics of Coherence Illusions in LLMs

Ece Takmaz, Nitin Kumar, Li Kloostra, Jakub Dotlacil

在荷兰语短篇语篇中，LLM会像人类一样在“再次/也”这类预设触发词上出现受干扰线索诱导的 coherence illusion，而 surprisal、attention entropy 和 energy 都能捕捉到这种错配。

语篇一致性错觉Surprisal注意力熵能量函数荷兰语大语言模型

自然语言处理★ 6.0

SCOPE: Sequential Conformal Probing for Reliable OOD Rejection in LLM Services

Zhuoyun Li, Boxuan Wang, Changshun Wu, Xiaowei Huang, Yi Dong

在冻结LLM中先选出“最可读”的隐藏层，再用IND校准与e-process把该层的OOD拒绝流转化为可进行任意时刻检验的服务边界证据。

LLM服务拒识OOD检测conformal predictione-process隐藏层探针

自然语言处理★ 5.7

Finetuning with Scientific Data Increases Hallucinations: A Multi-domain Factuality Evaluation of LLMs

Raia Abu Ahmad, Nikolas Rauscher, Ekaterina Borisova, Fabio Barth, Georg Rehm, Sebastian Möller

SciFactCheck在五个科学领域上系统证明：面向科学语料的微调并没有提升大模型事实性，反而在不可验证、过度断言和引用伪造上整体更差。

科学事实性评测大模型幻觉科学微调引用幻觉人工验证

自然语言处理★ 5.8

Dementia-Agents: A Multi-Modal Multi-Agent System for Dementia Staging and Phenotyping

Yaling Shen, Maja Christensen, Yiwen Jiang, Jenna Dennison, David Darby, Amy Brodtmann, Zongyuan Ge

将结构化临床记录按认知、风险、旁证、语言和视空间五个域拆分为专家代理，并通过概率聚合实现真实世界痴呆分期与表型识别。

痴呆分期痴呆表型识别多代理系统多模态临床建模真实世界医疗AI

自然语言处理★ 5.4

OpenWER: Improving Cross-Lingual ASR Evaluation and Enabling Token-Based Accuracy Metrics

Korbinian Kuhn, Gottfried Zimmermann

OpenWER 通过语言特定归一化、复合词检测和基于 token 的对齐，在尽量不破坏原始文本信息的前提下提升跨语言 ASR 的 WER 评估鲁棒性，并支持标点、大小写与元数据的补充指标。

跨语言ASR评估词错误率语言特定归一化复合词检测token级对齐

自然语言处理★ 5.3

Synthetic Audio Generation Framework for Air Traffic Control Speech Recognition

Raphaël Bagat, Zhe Zhang, Junichi Yamagishi, Irina Illina, Emmanuel Vincent

面向空管语音识别，构建了一条从降噪分离、超分辨率到TTS、VC与双向口音转换的合成音频生成流水线，用于缓解ATC领域真实数据稀缺。

空中交通管制语音识别合成语音生成口音转换语音转换数据增强

自然语言处理★ 5.8

Factual Retrieval in LLMs Is a Redundant, Distributed and Non-Contiguous Process

Hail Hochman, Natalie Shapira, Yoav Goldberg

提出一种迭代激活补丁方法，发现LLM中的事实属性检索不是单层完成的，而是通过可跳层、可替代且高度冗余的最小计算路径实现。

事实检索机制可解释性激活补丁冗余路径语言模型

自然语言处理★ 5.9

CAT-Translate: Building Compact Open-Source Models for Japanese-English Translation

Yuu Jinnai

面向日英翻译的专用小模型并不只是“缩小版大模型”，而是通过合成平行语料、两阶段SFT和MO-GRPO训练，在真实业务/法律/医疗/金融/专利场景中压过更大的通用多语模型。

日英机器翻译专用小模型合成平行语料两阶段监督微调MO-GRPO强化学习

自然语言处理★ 5.1

Precision Recall Controllable Radiology Report Generation via Hybrid Natural Language and Clinical Reward Learning

Ling Chen, Ruinan Jin, Jun Luo, Hanliang Chen, Quirin Strotzer, Rongkai Yan, Yuan Xue, Luciano Prevedello, Dufan Wu

通过将连续控制参数 λ 同时注入解码表示与临床奖励，构建了一个可按需调节胸部X光报告 precision/recall 权衡的强化学习框架。

胸部X光报告生成强化学习临床奖励precision-recall 可控性MIMIC-CXR

自然语言处理★ 5.0

PeerMathDial: A Middle School Dialogue Dataset for Student Collaborative Math Problem Solving

Murong Yue, Desmond Alexander Mcglone, Emily Slutz, Wenhan Lyu, Yixuan Zhang, Jennifer Suh, Ziyu Yao

从真实初中数学小组合作课堂中构建并发布了一个师生以外的同伴协作对话数据集，并用LLM辅助归纳出一套面向协作问题解决的对话行为体系。

协作问题解决同伴对话数据集初中数学对话行为标注LLM辅助语篇分析

自然语言处理★ 5.2

Economic Transformation and Cultural Change: Evidence from Two Centuries of French Drama

T. D. Oliveira, L. A. Attilio, M. J. Davila-Fernandez

基于1215部法国戏剧的主题模型、BVAR和离散选择仿真，刻画了法国资本主义发展如何推动戏剧主题从王权/贵族话语转向市民日常与家庭经济话语。

法国戏剧主题模型经济史BVAR文化演化

自然语言处理★ 5.6

Towards Pedagogically Aligned LLM Tutors for Math Mistake Remediation

Kseniia Petukhova, Tien Dat Nguyen, Ekaterina Kochmar

提出了一套面向数学错题纠正的两阶段“监督微调 + 偏好优化”对齐流水线，通过合成偏好对和不同输入信息配置，让LLM tutor在事实正确性与教学引导性上更接近人类辅导风格。

数学错题纠正教学对齐SFTDPO合成偏好数据

自然语言处理★ 4.8

Per-Entity Bias Mapping for AI Visibility: Why Brand Mentions Require Entity-Specific Calibration

Zoltan Varga

提出面向单个实体的 AI 视图校准框架 PEBM，并用 100 个匈牙利 B2B 实体的实证结果说明：高知名度实体反而更容易被模型生成带来源的虚构引用。

AI可见性实体级偏差映射幻觉引用知识图谱参数-检索时滞

自然语言处理★ 5.6

Dissecting Agentic RAG: A Component Ablation for Multi-Hop QA with a Local 7B Model

Sheroz Shaikh

在本地 7B 模型上，对 HotpotQA 多跳问答的 agentic RAG 做了严格消融，结果显示短迭代检索和固定混合检索比规则式自适应路由更有效。

多跳问答Agentic RAG消融研究混合检索HotpotQA

自然语言处理★ 5.8

MedHal-Loc: Are "Explainable-by-Architecture" Medical Hallucination Detectors Faithful Localizers? A Localization Benchmark

Minmin Chen, Daojian Lu, Yining Dai, Jvyu Cai, Fengdan Chen

MedHal-Loc证明：医疗幻觉检测的“可解释架构”未必真能定位错误，KG三元组管线在检测上可用，但在定位上只达到随机水平。

医疗幻觉检测错误定位可信度知识图谱三元组自然语言推理医学问答基准

自然语言处理★ 5.6

Rubric-as-Experts: Case-Specific MQM Rubrics for Translation Quality Evaluation

Weilu Xu, Yunzhi Shen, Xinye Wang, Ranfei Dang, Shujian Huang

把MQM rubric从固定标签表改造成按样本复杂度动态分配的“评价搜索空间”，以提升LLM在翻译错误跨度定位中的召回与定位纯净度。

MQM评估翻译质量评价动态路由span-level错误定位大语言模型

自然语言处理★ 5.4

TACO: Task-Aware Column Description Generation Using LLMs

Ting Cai, Rakesh R. Menon, Yiru Chen, Zifan Liu, Yuan Tian, Fei Wu, Anudeep Chimakurthi, Prashanthi Ramamurthy, Sunav Choudhary, Kun Qian, Yunyao Li

通过“缩写展开-描述生成-检索驱动修订”的三阶段流水线，把原本歧义重、噪声大的列名元数据转化为更一致、更可检索的任务感知列描述。

列描述生成缩写展开任务感知修订语义检索表结构理解

自然语言处理★ 5.9

CulMind: Benchmarking Multimodal Understanding and Reasoning in Chinese Cultural Heritage

Zhangwei Cao, Shuhan Fan, Yuting Wei, Jiajun Zhang, Yihang Peng, Qi Meng, Yangfu Zhu, Liangbin Yang

构建了覆盖50个任务的中文文化遗产多模态基准 CulMind，并提出面向推理过程的自适应评分 ReaScore，用任务级维度权重弥合“答对但推理错”的评测盲区。

中文文化遗产多模态基准推理过程评估任务自适应权重ReaScore

自然语言处理★ 4.3

LLM and Human Modes of Representation

Shalom Lappin

从句子可接受性、句法依存、叙事连贯性到NLI与规划任务的多项证据出发，论证LLM在人类擅长的语言表征上可接近甚至超过人类，但其处理方式与人类显著不同，且在域外推理与规划上仍主要依赖模式匹配。

大语言模型人类语言表征句子可接受性语义推理与规划叙事连贯性

自然语言处理★ 5.7

When Compression Helps and When It Hurts: Condition-Aware Analysis of Chain-of-Thought Distillation

Siyang Lyu, Zhijing Sun, Xinghao Chen, Tong Liu, Dawei Zhu, Xiaoyu Shen

将 CoT 压缩拆解为“重要性准则-重构层级-压缩预算”三维后发现，其有效性并非通用规律，而是强烈依赖任务域、监督长度和压缩粒度。

链式思维蒸馏CoT压缩重要性准则重构层级推理长度效率

自然语言处理★ 5.4

Behavioral and Representational Evidence of Binomial Ordering Preferences in Large Language Models

Zhiqing Yang, Yilun Liu, Yunpu Ma, Volker Tresp, Hinrich Schütze

构建了一个覆盖8种语言、600个双项表达的跨语言基准，证明LLM通常能抓住双项词序的“方向”却难以复现其频率强度，并且这种强度可在中后层表示中被部分解码和定向操控。

双项词序语言模型对齐语料偏好分布稀疏探针activation steering

自然语言处理★ 4.9

Evaluating Document-Tuned Transformer Representations for Person-level Mental Health Assessment

Aaron Marker, Oscar Kjell, Vasudha Varadarajan, H. Andrew Schwartz

在两个人群级心理健康数据集上，document-tuned 的 RoBERTa 句向量在层选择、扰动鲁棒性和总体预测精度上都稳定优于同骨干的 base 表示，但优势主要是增量性质。

文档向量表示句向量对比学习心理健康评估层选择纵向文本预测

自然语言处理★ 6.7

EvoEmbedding: Evolvable Representations for Long-Context Retrieval and Agentic Memory

Chang Nie, Chaoyou Fu, Junlan Feng, Caifeng Shan

通过引入可随上下文递推更新的潜在记忆队列，EvoEmbedding把“静态文本向量”改造成面向长上下文检索和agentic memory的可演化表示。

长上下文检索潜在记忆队列可演化表示agentic memoryRAG检索

自然语言处理★ 6.3

Test-Time Training with Next-Token Prediction

Xuan Ouyang, Zefan Cai, Junjie Hu

将测试时训练的 fast-weight 写入目标从局部代理改为“下一位置的上下文隐藏状态”，使长上下文适应与语言模型自身的 next-token 预测目标对齐。

测试时训练下一词预测长上下文建模Fast WeightRidge回归

自然语言处理★ 4.8

Clinical Term Extraction using Open-Source Small Language Models

Noah Marchal, William E. Janes, Mihail Popescu, Xing Song

在ALS病历术语存在检测任务上，提示式开源小语言模型并未整体超越规则基线，最稳妥的方案仍是按标签类型采用规则、词向量检索与SLM的混合抽取。

ALS术语抽取开源小语言模型临床自然语言处理规则基线多标签分类

自然语言处理★ 5.2

When to Plan, When to Polish: Noise Level as a Granularity Axis for Diffusion Language Models

Peihong Li, Yuanjie Shi, Yan Yan

把扩散过程中的噪声级别同时用作“看见多粗”和“提交多粗”的控制信号，使单层离散扩散语言模型在高噪声阶段先形成骨架、低噪声阶段再做词级润色。

离散扩散语言模型噪声依赖粒度控制分层规划话题骨架恢复条件长文本生成

自然语言处理★ 4.6

Leveraging LaBSE with Progressive Curriculum Learning for Multicultural Polarization

Sachin Sundar, Sandeep Kumar, Mothish M

以LaBSE加权层融合与混合池化为核心，结合代理引导课程学习，在多语言、多文化极化检测任务上提升低资源语言的分类稳定性。

多语言极化检测LaBSE混合池化课程学习Few-shot检索提示

自然语言处理★ 6.1

Denoising Iterative Self-Correction: Structured Verification Loops for Reliable LLM Reasoning

Shen Yin, David Ken, Joel Stremmel

DISC通过“验证-判决-修正”三段式循环和显式判断门控，在测试时自适应地保留正确答案并修复错误，从而显著改善LLM推理自纠错的精度-召回权衡。

LLM自纠错迭代验证判断门控推理可靠性证据驱动修正

自然语言处理★ 5.8

CalVerT: Augmenting Agents with Calibrated Verifier Telemetry Improves Action and Learning in Knowledge-Intensive Tasks

Ashwin Vinod, Ying Ding, Elias Stengel-Eskin

将校准后的自信度与证据支撑度同时注入 LLM 代理的每轮决策状态，可显著改善检索、修订与提交动作的选择，从而提升知识密集型问答的准确率-成本权衡。

校准自信度证据支撑度代理动作选择多跳问答自适应检索

自然语言处理★ 5.8

Scaling Performance and Low-Resource Annotation with Many-Shot In-Context Learning for Named Entity Recognition

Qi Zhang, Fangping Lan, Cornelia Caragea, Longin Jan Latecki, Eduard Dragut

将 hundreds-shot 的 in-context learning 用于 NER 后，LLM 不仅能在多数据集上逼近或超过全监督 BERT，还能作为离线标注器用少量种子标注生成高质量训练集，显著提升低资源 NER。

many-shot ICL命名实体识别低资源标注In-Context Annotation误差感知修正

自然语言处理★ 5.1

Inverse Turing Bench: Evaluating Language Models as Judges of Human vs. AI Dialogue

William Hager, Ishika Rathi, Masum Hasan, Cameron Jones

提出一个面向多轮对话的“反图灵测试”基准：给定两段对话，判断哪一段是人类-人类交流、哪一段是人类-AI交流，并据此评估模型的人类/AI区分能力。

反图灵测试多轮对话检测人工与AI区分LLM裁判AI生成文本检测

自然语言处理★ 6.1

Fixed RAG Compression Collapses Measured Reader Scaling

Sugam Panthi, Rabab Abdelfattah

固定式RAG压缩并非中性的评测层：它会系统性抬高弱读者、压低强读者，从而隐藏真实模型升级并扭曲读者排序。

RAG压缩读者尺度效应升级保留率上下文压缩评测模型排序扭曲

自然语言处理★ 5.4

Keyless Attention: Value-Space Routing and Value-Only Caching for Efficient Transformers

Xin Gao

用值向量直接承担路由，删除 key 投影，并把自回归推理中的 KV cache 压缩为仅存 value 的 50% 缓存方案。

Keyless AttentionValue-Only Cache自注意力重参数化KV缓存压缩值空间路由

自然语言处理★ 5.1

Adding Robust Code-Switching Capabilities to High Performance Multilingual ASR

Enes Yavuz Ugan, Alexander Waibel

用 BLoRA 将 GPT-4o 生成的德英合成 code-switch 语音转化为可用增益，在强 Whisper 基线上提升切换词识别，同时尽量不破坏既有多语种能力。

code-switching语音识别多语种ASRBLoRA合成数据增强Whisper

自然语言处理★ 6.8

The Language-Energy Divide: Measuring Energy Costs of Multilingual LLM Inference

Naihao Deng, Alissa Shen, Yiming Feng, Joan Nwatu, Jae-Won Chung, Mosharaf Chowdhury, Yulong Chen, Rada Mihalcea

跨 122 种语言的实测表明，LLM 推理能耗不是语言无关的：低资源、非拉丁文字语言在单位 token 和单次请求上都显著更耗能，并且往往同时更不准确。

多语言LLM推理能耗语言公平性tokenizer偏差低资源语言

自然语言处理★ 5.8

TALAS: Teacher-Anchored Layer Alignment with Adaptive Sharpness-Aware Minimization for Embedding Distillation

Quoc Phong Dao, Hoang Son Nguyen, Pham Khanh Chi, Linh Ngo Van, Nguyen Thi Ngoc Diep, Thien Huu Nguyen, Trung Le

用缓存的教师句向量监督学生上层表示，再用学生层间关系自蒸馏并结合ASAM优化，以较低训练开销提升句向量蒸馏的跨域泛化。

知识蒸馏句向量模型层对齐ASAM跨域泛化

自然语言处理★ 4.9

Deeper is Not Always Better: Mitigating the Alignment Tax via Confident Layer Decoding

Xuanming Zhang, Sining Zhoubian, Yuxuan Chen, Tianyi Tang, An Yang, Sean Du, Chujie Zheng, Fei Huang, Dayiheng Liu, Gao Huang, Jingren Zhou

通过在近终层按预测熵的局部谷值回溯选层解码，绕过部分最终层的“对齐扰动”，在若干推理任务上提升LLM输出质量。

LLM解码熵谷回溯中间层选择对齐税推理增强

自然语言处理★ 4.7

Olfactory-Inspired Sparse Combinatorial Coding for Low-Resource Named Entity Recognition

Bhushan Deshpande

在BiLSTM-CRF前加入受嗅觉启发的“受体-小球”稀疏瓶颈，在低资源NER中主要作为正则化器提升泛化，但其收益大多可被普通压缩瓶颈解释。

低资源命名实体识别嗅觉启发表示学习稀疏组合编码BiLSTM-CRF信息瓶颈

自然语言处理★ 5.0

On the Effect of Segmentation Width and Cluster Size on Speech Resynthesis and Continuation in Generative Spoken Language Models

Shunsuke Kando, Wataru Nakata, Shinnosuke Takamichi, Yusuke Miyao

在GSLM中，通过放宽分段宽度并配合更大的K-means簇数，可以在明显降低比特率的同时基本保持语音重建与续写质量，说明传统默认配置并非必要最优。

GSLM语音续写语音重建比特率离散语音单位