Arxiv Insights - Curated Research Intelligence

核心发现

技术可行性: 通过在本地部署基于RAG的小型LLM（如Gervásio 70B），可以实现与商业巨头提供的公共服务聊天机器人（如葡萄牙gov.pt系统）相当甚至略优的问答准确性。
经济可负担性: 实验表明，即使是70B参数模型，通过量化和负载均衡，也能在适度的计算资源（如配备10个NVIDIA L40 GPU的单节点）上有效运行，并支持数百并发用户，其成本在政府机构可承受范围内。
主权与自主: 这种本地部署方案支持数字和文化主权原则，避免了对外部商业提供商的依赖，解决了地缘政治风险和数据控制问题。
模型规模与RAG效应: 实验证实，更大的模型通常表现更好，针对特定语言微调的模型优于其基础模型，而RAG机制显著提升了问答性能。
冗余信息处理: 32B参数及以下的模型在处理冗长、冗余的问题时表现较差，而更大的模型则能利用这些上下文信息提升回答准确性。
谨慎的回答策略: 最佳性能模型（Gervásio 70B + RAG）倾向于过度分类问题为域外问题，这虽然可能导致少量域内问题未被回答，但能有效避免回答不当问题，保护公共机构声誉。

实验规模

实验构建了一个包含292个问答对的测试集，其中146个为直接问题，146个为冗长问题，均基于葡萄牙gov.pt门户网站的2300多个公共服务网页内容。此外，还使用了Do-Not-Answer数据集的61个问题子集来评估模型拒绝回答不当问题的能力。评估了多种开源LLM，包括Gervásio 8B/70B、Llama 3.1 8B/3.3 70B、Mistral 24B和Qwen 32B，部分模型结合了RAG。所有模型均量化至4位精度，并在配备NVIDIA L40 GPU的单节点上进行部署。负载测试在100到1000个并发用户下进行，测量了生成100个token的延迟，并对比了单实例和负载均衡配置下的性能。

局限性

尽管论文提供了令人信服的实证结果，但其评估主要依赖于一个由大型LLM（Llama 3.3 70B Instruct）作为判断模型的自动评分系统，这可能引入评估偏差。此外，论文的实验范围局限于葡萄牙语公共服务领域，其结论在多大程度上能推广到其他语言或更复杂的公共服务场景仍需进一步验证。虽然负载测试提供了性能数据，但未详细说明硬件成本和长期维护成本，这对于“可负担性”的全面评估至关重要。