Arxiv Insights

Curated Research Insights • AI & Machine Learning

自然语言处理6.2

Hybrid Neural-LLM Pipeline for Morphological Glossing in Endangered Language Documentation: A Case Study of Jungar Tuvan

Siyu Liang, Talant Mawkanuli, Gina-Anne Levow
本研究提出了一种结合BiLSTM-CRF与LLM后修正的混合式自动化流水线,显著提升了濒危语言(以准噶尔图瓦语为例)的形态学词汇标注效率,并揭示了检索增强、词典使用和少样本学习的关键设计原则。
混合流水线LLM形态学词汇标注濒危语言检索增强生成
自然语言处理7.8

How RL Unlocks the Aha Moment in Geometric Interleaved Reasoning

Xiangxiang Zhang, Caijun Jia, Siyuan Li, Dingyu He, Xiya Xiong, Zheng Sun, Honghao He, Yuchen Wu, Bihui Yu, Linzhuang Sun, Cheng Tan, Jingxuan Wei
Faire框架通过强化学习和三重视角验证系统,解决了监督微调在几何交错推理中仅学习表面模式的局限,实现了图表与推理的功能性对齐,从而显著提升了几何问题解决能力。
几何推理强化学习多模态大语言模型功能性对齐交错推理
自然语言处理5.8

DEP: A Decentralized Large Language Model Evaluation Protocol

Jianxiang Peng, Junhao Li, Hongxiang Wang, Haocheng Lyu, Hui Guo, Siyi Hao, Zhen Wang, Chuang Liu, Shaowei Zhang, Bojian Xiong, Yue Chen, Zhuowen Han, Ling Shi, Tianyu Dong, Juesi Xiao, Lei Yang, Yuqi Ren, Deyi Xiong
DEP是一个去中心化的LLM评估协议,通过解耦LLM、客户端和基准测试,实现统一、模块化且防泄露的评估。
大语言模型评估去中心化协议基准测试数据隐私评估框架
自然语言处理7.6

Truth as a Trajectory: What Internal Representations Reveal About Large Language Model Reasoning

Hamed Damirchi, Ignacio Meza De la Jara, Ehsan Abbasnejad, Afshar Shamsi, Zhen Zhang, Javen Shi
论文提出“真理即轨迹”(TaT)框架,将LLM推理视为激活向量在层间的动态位移轨迹,而非静态激活点,从而有效区分有效推理与虚假行为,并展现出卓越的跨任务泛化能力。
LLM可解释性轨迹分析内部表示泛化能力推理有效性
自然语言处理6.8

nchellwig at SemEval-2026 Task 3: Self-Consistent Structured Generation (SCSG) for Dimensional Aspect-Based Sentiment Analysis using Large Language Models

Nils Constantin Hellwig, Jakob Fehle, Udo Kruschwitz, Christian Wolff
SCSG通过结合LoRA微调LLM的多轮自洽生成与多数投票机制,显著提升了维度方面情感分析的预测可靠性,并利用vLLM的PagedAttention优化了推理效率。
自洽生成维度情感分析大型语言模型PagedAttentionSemEval
自然语言处理7.2

What Exactly do Children Receive in Language Acquisition? A Case Study on CHILDES with Automated Detection of Filler-Gap Dependencies

Zhenghao Herbert Zhou, William Dai, Maya Viswanathan, Simon Charlow, R. Thomas McCoy, Robert Frank
开发了一种结合句法和依存分析的自动化系统,用于大规模识别儿童语言习得中填充-空缺依存关系,并量化其在儿童指导语和儿童产出中的分布。
填充-空缺依存儿童语言习得CHILDES自动化检测句法分析
自然语言处理8.5

ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

Xiang Zheng, Han Li, Wenjie Luo, Weiqi Zhai, Yiyuan Li, Chuanmiao Yan, Tianyi Tang, Yubo Ma, Kexin Yang, Dayiheng Liu, Hu Wei, Bing Zhao
ClinConsensus是一个由临床专家策划、验证和质量控制的中文医疗大模型基准,通过引入CACS@k指标和双重评判框架,旨在评估大模型在真实世界、复杂且开放式临床场景中的可用性和安全性。
医疗大模型基准测试临床评估CACS@k中文医疗