大模型的幻觉及其应对措施
一、引言
大型语言模型(LLMs)能够生成流畅的文本、完成复杂的问答任务,甚至辅助科研与创意工作。然而,这些模型在实际应用中面临一个关键挑战——“幻觉”(Hallucination),即生成看似合理但偏离事实或用户意图的内容。
例如,模型可能宣称“埃菲尔铁塔导致巴黎虎灭绝”,或无视用户指令转而回答无关问题。这类错误轻则误导用户,重则在医疗、法律等高风险场景引发严重后果。如何应对幻觉,已成为推动LLMs实用化的关键课题。
二、大模型的幻觉现象
幻觉的定义
幻觉指模型生成内容与事实不符或违背用户意图的现象。其本质是模型在缺乏真实知识或逻辑推理能力时,通过“脑补”填补信息缺口。
幻觉的分类与典型案例
| 类型 | 表现 | 案例 |
|---|---|---|
| 事实性幻觉 | 生成内容违背客观事实 | • 错误归属:“爱迪生发明电话”(实为贝尔) • 虚构实体:“巴黎虎因埃菲尔铁塔灭绝”(无此物种) |
| 忠实性幻觉 | 生成内容偏离用户指令或上下文 | • 指令忽略:要求翻译却直接回答问题 • 逻辑矛盾:解题步骤正确但答案错误 |
| 社会偏见幻觉 | 输出隐含性别、种族等偏见 | • “护士多为女性”(忽略性别中立描述) • 将“Kim博士”默认关联为韩国人 |
幻觉的危害
- 信息误导:在医疗咨询中,错误症状描述可能导致误诊。
- 信任危机:用户发现错误后降低对模型的依赖。
- 法律风险:法律建议中的虚构条款可能引发纠纷。
三、幻觉的根源剖析
数据缺陷:垃圾进,垃圾出
- 错误信息污染:训练数据包含过时知识(如“冥王星是行星”)或网络谣言。
- 长尾知识缺失:专业领域(如罕见病诊疗)或新兴事件(如2024年总统选举)信息不足。
- 偏见放大:社会媒体数据中的性别、地域偏见被模型继承。
训练机制局限
- 自回归范式:模型仅依赖上文预测下一个词,缺乏全局事实校验。
- 对齐悖论:强化学习(
RLHF)可能让模型为讨好人类偏好而牺牲真实性。
推理能力不足
- 注意力稀释:长文本生成时,关键信息被淹没(如“中间诅咒”现象)。
- 过度自信:模型对错误答案的置信度可能高达90%,缺乏不确定性表达。
四、系统化应对策略
数据治理:构建高质量知识基座
- 动态数据清洗:利用事实核查工具(如FACTSCORE)过滤虚假信息。
- 知识图谱融合:将维基百科等结构化知识嵌入训练,增强事实关联能力。
模型优化:从架构到训练的革命
- 检索增强生成(RAG):实时检索外部知识库(如PubMed),避免“闭门造车”。
- 推理链监督:通过Chain-of-Thought提示强制模型展示推理步骤,暴露逻辑漏洞。
解码控制:生成过程的风险拦截
- 对比解码(Contrastive Decoding):对比“有上下文”与“无上下文”生成概率,抑制无关内容。
- 自检机制:生成后触发验证问答(如“你的依据是什么?”),实现内容自洽。
五、(普通)用户侧防御
(一)Prompt 工程
精准指令设计
- 明确具体:指令应包含明确的主题、范围和格式要求,避免模糊性。
- 例如,要求模型“基于2023年《Nature》期刊最新研究,用中学生能理解的语言,撰写一篇500字以内的量子计算原理介绍,需包含‘量子叠加’和‘量子纠缠’的比喻说明”,而非简单地“写一篇关于量子计算的科普文章”。
- 约束输出:通过指定字数、语言风格、包含内容等,限制模型的发挥空间,降低幻觉风险。
- 例如,“撰写一篇300字的科技新闻摘要,仅包含研究突破和应用前景,使用正式语言。”
- 引用权威:要求模型基于特定权威来源回答。
- 例如“根据世界卫生组织2023年报告,阐述全球疫苗接种现状。”
-
示例:
# 模糊指令(易引发幻觉) “写一篇关于人工智能的未来发展趋势。” # 优化指令(约束输出) “基于2023年《AI Research》期刊最新研究,用通俗易懂的语言,撰写一篇300字以内的关于人工智能未来发展趋势的摘要,需包含至少两个具体的应用领域。”
分步引导
- 任务分解:将复杂任务分解为多个简单步骤,逐步引导模型完成。
- 例如,对于“分析意大利面制作过程,请:1)列出意大利面制作的5个核心步骤;2. 详细描述每个步骤的注意事项;3. 最后总结常见失败原因及解决方法”。
- 逻辑串联:确保各步骤间逻辑连贯,避免模型随意发挥。
- 例如,“在分析市场趋势时,先收集近5年数据,再进行线性回归分析,最后预测下一年度趋势。”
反馈修正
- 直接指出错误:当模型输出有误时,明确指出问题所在,并要求修正。
- 例如,“你提到‘尼罗河发源于安第斯山脉’,这与权威地理资料冲突,请重新核查并修正。”
- 引导自检:通过提问引导模型自我检查输出内容。
- 例如,“请回顾你刚才的回答,是否有与常识相悖之处?如有,请修正。”
- 提供参考:给出正确信息或参考链接,帮助模型修正。
- 例如,“参考国家地理网站关于尼罗河的资料,修正发源地描述。”
-
示例:
# 模型输出 “尼罗河发源于安第斯山脉,全长6650公里,是世界上最长的河流。” # 反馈修正 “你提到‘尼罗河发源于安第斯山脉’,这与权威地理资料冲突,请重新核查并修正。” # 修正后输出 “尼罗河发源于东非高原,全长6650公里,是世界上最长的河流。”
(二)交叉验证:多模型协作
- 模型组合选择:选择具有不同训练数据、架构或参数的模型组合,以增加结果多样性。例如,结合GPT-4、Claude和Gemini等不同模型。
- 结果比较与筛选:对比多个模型输出,筛选出一致且符合常识的结果。对于不一致内容,进一步核查权威资料。
- 投票机制:当多个模型答案不同时,采用投票方式确定最可信答案。例如,3个模型中2个支持某一答案,则该答案胜出。
-
示例:
# 问题 “2023年诺贝尔物理学奖得主是谁?” # 模型A输出 “2023年诺贝尔物理学奖得主是约翰·杜瓦尔。” # 模型B输出 “2023年诺贝尔物理学奖得主是安娜·凯恩。” # 模型C输出 “2023年诺贝尔物理学奖得主是安娜·凯恩。” # 交叉验证结果 根据模型B和模型C的一致性,以及进一步核查官方公告,确定正确答案是安娜·凯恩。
(三)检索增强生成(RAG)
- 知识库选择:根据任务需求选择合适的外部知识库,如医学领域用PubMed,法律领域用LEXIS。
- 实时检索:在模型生成内容时,实时检索相关知识库,为模型提供准确信息支持。
- 检索结果融合:将检索到的信息合理融入模型生成内容中,确保输出基于真实可靠知识。
-
示例:
# 问题 “2023年诺贝尔物理学奖得主的研究领域是什么?” # 检索增强生成 模型通过检索2023年诺贝尔奖官方网站,获取得主安娜·凯恩的研究领域为“量子光学”,并将其融入回答中。 # 最终回答 “2023年诺贝尔物理学奖得主安娜·凯恩的研究领域是量子光学,她的工作主要集中在量子信息处理和量子通信方面。”
六、参考论文
《A Survey on Hallucination in Large Language Models - Principles, Taxonomy, Challenges, and Open Questions》
- URL:
https://doi.org/10.1145/3703155 - 摘要:大语言模型(
LLM)的出现标志着自然语言处理(NLP)的重大突破,从而助长了信息获取的范式转移。然而,LLMS容易产生幻觉,产生了合理但非事实的内容。这种现象对LLM在现实世界信息检索(IR)系统中的可靠性引起了重大关注,并吸引了深入研究以检测和减轻此类幻觉。鉴于LLM固有的开放式通用属性,LLM幻觉带来了与先前特定于特定任务的模型不同的明显挑战。这种分歧强调了对LLM幻觉最近进步的细微理解和全面概述的紧迫性。在这项调查中,我们从LLM时代的创新分类学开始,然后深入研究导致幻觉的因素。随后,我们详细介绍了幻觉检测方法和基准。然后,我们的讨论转移给了减轻LLM幻觉的代表性方法。此外,我们深入研究了通过检索功能的LLM在打击幻觉方面面临的当前限制,为开发更强大的IR系统提供了见解。最后,我们强调了有关LLM幻觉的有前途的研究方向,包括大型视觉模型中的幻觉以及对LLM幻觉中知识边界的理解。