大模型的幻觉及其应对措施

一、引言

大型语言模型（LLMs）能够生成流畅的文本、完成复杂的问答任务，甚至辅助科研与创意工作。然而，这些模型在实际应用中面临一个关键挑战——“幻觉”（Hallucination），即生成看似合理但偏离事实或用户意图的内容。

例如，模型可能宣称“埃菲尔铁塔导致巴黎虎灭绝”，或无视用户指令转而回答无关问题。这类错误轻则误导用户，重则在医疗、法律等高风险场景引发严重后果。如何应对幻觉，已成为推动LLMs实用化的关键课题。

二、大模型的幻觉现象

幻觉的定义

幻觉指模型生成内容与事实不符或违背用户意图的现象。其本质是模型在缺乏真实知识或逻辑推理能力时，通过“脑补”填补信息缺口。

幻觉的分类与典型案例

类型	表现	案例
事实性幻觉	生成内容违背客观事实	• 错误归属：“爱迪生发明电话”（实为贝尔） • 虚构实体：“巴黎虎因埃菲尔铁塔灭绝”（无此物种）
忠实性幻觉	生成内容偏离用户指令或上下文	• 指令忽略：要求翻译却直接回答问题 • 逻辑矛盾：解题步骤正确但答案错误
社会偏见幻觉	输出隐含性别、种族等偏见	• “护士多为女性”（忽略性别中立描述） • 将“Kim博士”默认关联为韩国人

幻觉的危害

信息误导：在医疗咨询中，错误症状描述可能导致误诊。
信任危机：用户发现错误后降低对模型的依赖。
法律风险：法律建议中的虚构条款可能引发纠纷。

三、幻觉的根源剖析

数据缺陷：垃圾进，垃圾出

错误信息污染：训练数据包含过时知识（如“冥王星是行星”）或网络谣言。
长尾知识缺失：专业领域（如罕见病诊疗）或新兴事件（如2024年总统选举）信息不足。
偏见放大：社会媒体数据中的性别、地域偏见被模型继承。

训练机制局限

自回归范式：模型仅依赖上文预测下一个词，缺乏全局事实校验。
对齐悖论：强化学习（RLHF）可能让模型为讨好人类偏好而牺牲真实性。

推理能力不足

注意力稀释：长文本生成时，关键信息被淹没（如“中间诅咒”现象）。
过度自信：模型对错误答案的置信度可能高达90%，缺乏不确定性表达。

四、系统化应对策略

数据治理：构建高质量知识基座

动态数据清洗：利用事实核查工具（如FACTSCORE）过滤虚假信息。
知识图谱融合：将维基百科等结构化知识嵌入训练，增强事实关联能力。

模型优化：从架构到训练的革命

检索增强生成（RAG）：实时检索外部知识库（如PubMed），避免“闭门造车”。
推理链监督：通过Chain-of-Thought提示强制模型展示推理步骤，暴露逻辑漏洞。

解码控制：生成过程的风险拦截

对比解码（Contrastive Decoding）：对比“有上下文”与“无上下文”生成概率，抑制无关内容。
自检机制：生成后触发验证问答（如“你的依据是什么？”），实现内容自洽。

五、（普通）用户侧防御

（一）Prompt 工程

精准指令设计

明确具体：指令应包含明确的主题、范围和格式要求，避免模糊性。
- 例如，要求模型“基于2023年《Nature》期刊最新研究，用中学生能理解的语言，撰写一篇500字以内的量子计算原理介绍，需包含‘量子叠加’和‘量子纠缠’的比喻说明”，而非简单地“写一篇关于量子计算的科普文章”。
约束输出：通过指定字数、语言风格、包含内容等，限制模型的发挥空间，降低幻觉风险。
- 例如，“撰写一篇300字的科技新闻摘要，仅包含研究突破和应用前景，使用正式语言。”
引用权威：要求模型基于特定权威来源回答。
- 例如“根据世界卫生组织2023年报告，阐述全球疫苗接种现状。”

示例：

# 模糊指令（易引发幻觉）

“写一篇关于人工智能的未来发展趋势。”

# 优化指令（约束输出）

“基于2023年《AI Research》期刊最新研究，用通俗易懂的语言，撰写一篇300字以内的关于人工智能未来发展趋势的摘要，需包含至少两个具体的应用领域。”

分步引导

任务分解：将复杂任务分解为多个简单步骤，逐步引导模型完成。
- 例如，对于“分析意大利面制作过程，请：1）列出意大利面制作的5个核心步骤；2. 详细描述每个步骤的注意事项；3. 最后总结常见失败原因及解决方法”。
逻辑串联：确保各步骤间逻辑连贯，避免模型随意发挥。
- 例如，“在分析市场趋势时，先收集近5年数据，再进行线性回归分析，最后预测下一年度趋势。”

反馈修正

直接指出错误：当模型输出有误时，明确指出问题所在，并要求修正。
- 例如，“你提到‘尼罗河发源于安第斯山脉’，这与权威地理资料冲突，请重新核查并修正。”
引导自检：通过提问引导模型自我检查输出内容。
- 例如，“请回顾你刚才的回答，是否有与常识相悖之处？如有，请修正。”
提供参考：给出正确信息或参考链接，帮助模型修正。
- 例如，“参考国家地理网站关于尼罗河的资料，修正发源地描述。”

示例：

# 模型输出
“尼罗河发源于安第斯山脉，全长6650公里，是世界上最长的河流。”
      
# 反馈修正
“你提到‘尼罗河发源于安第斯山脉’，这与权威地理资料冲突，请重新核查并修正。”
      
# 修正后输出
“尼罗河发源于东非高原，全长6650公里，是世界上最长的河流。”

（二）交叉验证：多模型协作

模型组合选择：选择具有不同训练数据、架构或参数的模型组合，以增加结果多样性。例如，结合GPT-4、Claude和Gemini等不同模型。
结果比较与筛选：对比多个模型输出，筛选出一致且符合常识的结果。对于不一致内容，进一步核查权威资料。
投票机制：当多个模型答案不同时，采用投票方式确定最可信答案。例如，3个模型中2个支持某一答案，则该答案胜出。

示例：

# 问题
“2023年诺贝尔物理学奖得主是谁？”
  
# 模型A输出
“2023年诺贝尔物理学奖得主是约翰·杜瓦尔。”
  
# 模型B输出
“2023年诺贝尔物理学奖得主是安娜·凯恩。”
  
# 模型C输出
“2023年诺贝尔物理学奖得主是安娜·凯恩。”
  
# 交叉验证结果
根据模型B和模型C的一致性，以及进一步核查官方公告，确定正确答案是安娜·凯恩。

（三）检索增强生成（RAG）

知识库选择：根据任务需求选择合适的外部知识库，如医学领域用PubMed，法律领域用LEXIS。
实时检索：在模型生成内容时，实时检索相关知识库，为模型提供准确信息支持。
检索结果融合：将检索到的信息合理融入模型生成内容中，确保输出基于真实可靠知识。

示例：

# 问题
“2023年诺贝尔物理学奖得主的研究领域是什么？”
  
# 检索增强生成
模型通过检索2023年诺贝尔奖官方网站，获取得主安娜·凯恩的研究领域为“量子光学”，并将其融入回答中。
  
# 最终回答
“2023年诺贝尔物理学奖得主安娜·凯恩的研究领域是量子光学，她的工作主要集中在量子信息处理和量子通信方面。”

六、参考论文

《A Survey on Hallucination in Large Language Models - Principles, Taxonomy, Challenges, and Open Questions》

URL：https://doi.org/10.1145/3703155
摘要：大语言模型（LLM）的出现标志着自然语言处理（NLP）的重大突破，从而助长了信息获取的范式转移。然而，LLMS容易产生幻觉，产生了合理但非事实的内容。这种现象对LLM在现实世界信息检索（IR）系统中的可靠性引起了重大关注，并吸引了深入研究以检测和减轻此类幻觉。鉴于LLM固有的开放式通用属性，LLM幻觉带来了与先前特定于特定任务的模型不同的明显挑战。这种分歧强调了对LLM幻觉最近进步的细微理解和全面概述的紧迫性。在这项调查中，我们从LLM时代的创新分类学开始，然后深入研究导致幻觉的因素。随后，我们详细介绍了幻觉检测方法和基准。然后，我们的讨论转移给了减轻LLM幻觉的代表性方法。此外，我们深入研究了通过检索功能的LLM在打击幻觉方面面临的当前限制，为开发更强大的IR系统提供了见解。最后，我们强调了有关LLM幻觉的有前途的研究方向，包括大型视觉模型中的幻觉以及对LLM幻觉中知识边界的理解。