引言
2025 年 8 月下旬美国亚利桑那州联邦法院(United States District Court for the District of Arizona)由 Alison S. Bachus 法官裁定: Maren Bam律师在社保上诉案中,依据美国《联邦民事诉讼规则》第 11 条,律师必须对其提交的文书内容,包括引用的案例,进行“合理调查”并确保其真实性。然而,Maren Bam 的开庭申请书中共列出 19 个案例引用,但法庭认定其中只有 5–7 个真实存在,其余多数为 AI “生成”的虚构案例,严重缺乏事实依据、误导法庭 (PPC Land)。为此,法院对该律师实施了一系列严厉处罚。 这是针对 AI 导致的“引用幻觉”(hallucinated citations)最重的制裁之一,凸显出律师在使用 AI 工具辅助写作时仍须严格核实其引用内容的必要性。
Courtroom
此类案件在美国已有先例,比如:
-
怀俄明州 Morgan & Morgan 律所:三名律师因 AI 生成的 8 个虚假引用被罚款(罚款数千美元) (彭博法律新闻);
-
犹他州:律师因 ChatGPT 生成了不存在的案例,被制裁并需支付对方律师费、退款,并向法律公益组织捐款 (卫报)。
-
印第安纳州 – Rafael Ramirez 案:律师在法律文件中使用 AI 引入不存在的案例。知情后,他撤回引用并道歉,但法院仍建议罚款 $15,000。courtwatch
-
阿拉巴马州 – Butler Snow 律师团被制裁:三位律师在州监狱案件中使用 ChatGPT 引入完全虚构的案例。 地方法官称此行为“极度鲁莽”,将三人从案件中撤出,并要求通知相关各方,已移送给州律师协会可能的纪律处理。AP
行业趋势与反思
Judges are catching fake citations of legal authorities almost every day in U.S
-
事件增多:据《华盛顿邮报》统计,自 2023 年 6 月以来,美国已记录至少 95 起 AI 引用错误事件,仅今年就有 58 起。法院针对虚假引用提起罚款,最高达 $31,100。 Post
-
全球事务观察:Business Insider 引述 Charlotin 的数据库显示,全球至少记录 120 起类似事件,且如今律师比自代表者更常犯错。有些罚款已超过 $10,000。Insider
综上所述,目前AI 是工具, 而非法律来源,必须经人工核查引用,避免“AI 幻觉”造成的各种问题。AI 在法律研究中存在严重“幻觉”问题,利用 ChatGPT‑4 生成联邦法院事实性问题的回答中,错误率达到 58% arxiv.org 。甚至,利用主流法律研究 AI 工具(如 Lexis+ AI, Westlaw AI 等)仍有 17–33% 的幻觉率arxiv.org 。
Hallucination rates by LLM
Comparison of hallucinated and incomplete answers across generative legal research tool
什么是LLM“幻觉”?
AI“幻觉”的起源
1995 年,Stephen Thaler 展示了人工神经网络在连接权重随机扰动下如何产生幻觉和幻影体验Edu 。作者构建了一个简单的 3–5–9 前馈模式联想器: 输入层:3 个节点(可表示 8 种三位二进制模式); 隐藏层:5 个节点; 输出层:9 个节点,对应 3×3 的像素图案。训练任务是: 每个三位输入模式 → 一个对称的 3×3 输出像素图案(如下所示):
The eight pattern with different input
实验的关键步骤是随机剪枝连接权重,也就是逐渐将网络的连接置零,直到所有权重被“抹除”。 在这个过程中,作者 把输入固定(clamp) 在 {0,0,0},也就是说本来输出应该是某个固定的 3×3 图案。然而,图中显示出: 即使输入始终是零向量,随着网络逐渐被破坏,输出仍然会不断出现训练时学过的图案。 这些虚假的输出模式 被作者称为 “Virtual Inputs” (虚拟输入)(如下图)。
A representative stochastic death for the trained pattern association
在 2000 年代初期,“幻觉”一词在计算机视觉中以积极的含义使用,用来描述为图像增加细节的过程。例如,从低分辨率输入生成高分辨率人脸图像的任务就被称为 人脸幻觉(face hallucination)MIT。如下图,(b)的脸部特征如上眼睛,眉毛,鼻子,嘴,牙齿与ground true (c)都不一样。
Illustration of face hallucination
到 2010 年代后期,该术语经历了语义转变,用于指代 AI 系统在翻译或目标检测等任务中生成事实错误或误导性输出。例如,2017 年,Google 研究人员用该术语来描述神经机器翻译(NMT)模型在生成与源文本无关的翻译时的表现arXiv : 如下任务:德语 → 英语翻译,前面为原句(source),参考翻译(reference)和NMT的翻译;研究者在输入句子前面随便加一个无关的单词: mit (with), werden (to become),dass (that)其余部分不变。NMT模型输出彻底跑偏,完全不再翻译原句内容,而是生成与原句无关的句子(Mistranslations部分的三个句子)。
NMT Hallucinations
随着 AI 聊天机器人(基于大型语言模型)的兴起,“幻觉”一词在 AI 领域获得更广泛认可。 2021 年 7 月,Meta 在发布 BlenderBot 2 时警告该系统容易产生“幻觉”,Meta 将其定义为“自信但不真实的陈述”(如下图,左边 GPT-3 用户问「Tell me about Tom Brady」。 GPT-3 回答:Tom Brady 是新英格兰爱国者队 (Patriots) 的四分卫,并列举了他在爱国者队时获得的超级碗与 MVP 成就。 → 问题:这个回答在当时(图示应该是 2020–2021 左右)已经过时了,因为 Tom Brady 2020 年就转会到了 Tampa Bay Buccaneers。模型却「自信」地输出了旧信息。 右边 BlenderBot 2.0 同样的问题,它通过实时搜索更新信息,回答 Tom Brady 是坦帕湾海盗队 (Buccaneers) 的四分卫,并称他是史上最伟大四分卫之一。 这回答是事实正确的。)Meta。 2022 年 11 月,OpenAI 发布 ChatGPT 测试版后,一些用户抱怨这些聊天机器人常常无意义地在内容中嵌入似是而非的虚假信息 Slate。《纽约时报》等媒体也开始使用“幻觉”一词来描述这些模型偶尔错误或不一致的回应 nytimes。
GPT-3 and BlenderBot hallucinations
2023 年,剑桥词典更新了“hallucination”的定义,纳入了这一特定于 AI 领域的新含义guardian。
LLM"幻觉"
随着LLM的兴起,幻觉的范围有所拓宽。在开放域对话和问答场景,模型可能在没有任何依据的情况下生成貌似真实的知识性陈述,即事实幻觉(factual hallucination)arxiv.org。例如,模型自信地提供错误的历史事件日期或科学定义。又比如,引用幻觉(citation hallucination)是近期备受关注的一种情形,指模型编造引文或来源ssrn。ChatGPT一度会给出看似格式正确但实际不存在的论文或法律判例编号,这种伪造引用会误导用户相信虚假出处ssrn。在学术和法律领域,幻觉往往以这种引用造假的形式出现,并严重损害模型输出的可信度。针对LLM的新特性,学者定义了的幻觉分类。Ma等(2023)将LLM幻觉分为事实性幻觉和忠实性幻觉两大类(如下表的例子所示):arxiv.org
-
事实性幻觉(Factuality Hallucination):指模型输出与客观事实不符。通常表现为捏造事实、时间、数量等与真实世界知识冲突的内容。这类幻觉直接违背了可验证的真实世界事实,属于典型的“事实错误”。
-
忠实性幻觉(Faithfulness Hallucination):指模型输出背离了用户提供的输入或上下文,或者内部前后不一致。这进一步细分为:指令不一致(未按照用户指示行动)、上下文不一致(与提供的对话/文本背景不符)以及逻辑不一致(模型输出自相矛盾)。忠实性幻觉反映模型未能忠实遵循用户意图或保持自身内容的一致性。
Examples of each category of LLM hallucinations
幻觉现象的来源与本质
LLM产生幻觉的根源是多方面的,可归结为模型训练数据、模型推理机制及应用情境等因素arxiv.org。以下从几方面分析幻觉的成因:
-
语言模型训练目标与机制:主流LLM采用自回归下一词预测作为训练目标。这种机制使模型倾向于生成在统计上连贯而不一定事实正确的文本。由于训练时只关注提高续写的似然,模型学会的是“像人话”一样的连贯输出,却没有内置的事实校验能力acl。因此,只要某段话在训练语料中高频且上下文搭配合理,模型就可能将其输出,即便内容是错的。换言之,模型对语义连贯性的追求可能压倒对语义真实性的保证acl。
Next Token Prediction
-
训练数据的问题:LLM从大规模语料中学习,如果训练语料中包含了错误或虚假信息,模型可能内化这些谬误,在生成时复现出来preprints.org。此外,训练语料存在时效性限制——例如GPT-3.5停留在2021年数据——超出其知识范围的问题容易诱发模型“硬编”答案,即所谓“知识盲区幻觉”。当用户询问模型未见过的新知识时,模型往往宁可编造一个答案也不愿直言不知。训练数据的bias也会导致幻觉,例如模型可能在流行但错误的迷思影响下给出谬误结论arxiv,如下图Bias是源于数据,通过LLM训练数据扩散到模型训练的各个环节,进而最终会诱发模型给出带有幻觉的答案 arxiv。
LLM Life Cycle with Potential Sources of Biases
-
模型记忆与知识组织:LLM以参数形式记忆了海量知识,但这种参数记忆并非精确的数据库。当不同知识点之间存在干扰时,模型可能错误地检索或组合记忆,导致幻觉。例如,Zhang等(2025)提出“知识遮蔽”(Knowledge Overshadowing)现象:模型偏好使用其记忆中更常见的知识,而忽略冷门但正确的知识,从而产生偏差arxiv。这种模型内部知识的竞争与干扰会扭曲推理过程,生成似是而非的答案。知识遮蔽理论为幻觉提供了新的解释,并揭示幻觉发生率与知识流行度、长度、模型规模呈对数线性增长关系arxiv.org,即模型越“大”,越倾向于过度依赖其“大数据”中流行的关联而忽视准确性。例如,下图中,增加更多无关上下文(保持核心关键词如 "dead cat" 不变)会提升模型生成“猫有生存可能性”为 50% 的错误输出概率。这反映了“知识遮蔽”机制(knowledge overshadowing),即上下文越冗长,模型越可能被表面连贯性所误导;同样,对于 DeepSeek,模型误将问题聚焦在“Scaling Laws”这一高频关键词上,导致错误选出著名学者 Kaplan,而忽略准确的作者 Yi Tay ;对 Qwen,模型可能因为“African”低频且“machine learning”高频,从而产生“Bengio”这种被误导的知名人物arxiv。
Knowledge Overshadowing
-
上下文和记忆局限:在长对话或长文生成中,模型面临上下文漂移(Context Drift)和记忆衰减的问题。如果对话轮次很多或文本跨越多个主题,模型可能遗忘早先提到的信息,或无法将之前内容正确整合到后续回答中preprints。这会导致情景幻觉,即模型输出与对话历史不一致或牛头不对马嘴。研究表明,这是因为模型缺乏显式的长期记忆机制:当对话主题转变或信息量过大时,模型内部表示会发生漂移,无法可靠地“记住”先前语境。记忆幻觉也包括模型凭空“回忆”出先前没提过的内容,或者将不相关的记忆混入当前回答中。这类错误本质上源于Transformer在长序列上的信息遗忘和语境压缩问题:模型对距离当前很远的内容赋予了过低权重,从而在需要时错误重构了上下文preprints。例如,下图(a) 上下文长度 vs 推理复杂度的能力边界:横轴代表 Context Length(上下文长度),纵轴代表 Reasoning Complexity(推理复杂度)。图中曲线表示 SOTA 模型的能力上限,在长上下文与高复杂度条件下,模型能力显著下降。长上下文任务(例如LongBench)往往推理复杂度较低,而强推理(如数学推理)受限于短上下文。 红色区域(GSM-Infinite Regime)标示该任务区域,意味着 GSM-Infinite 测试更长上下文、更复杂推理场景下模型的行为。这正说明在长对话或跨主题生成中,模型难以保持上下文一致性,极易“遗忘”或“漂移”。下图(b) 问题构造示例:来自 “Jefferson Zoo” 的动物数量推理任务,构造中包含节点之间的运算关系(7 次操作);用户提问涉及累计计算:先询问 Adult Lion 与 Adult Monkey 的新生儿数量,再综合推理总数;展现模型处理复杂图结构、一系列上下文步骤时,若上下文追踪不良,容易输出与真实不一致的结果,印证“上下文漂移”导致的情境不一致问题。下图(c) 实验结果:模型准确率随上下文扩展显著下降,曲线展示了以 Qwen‑2.5‑72B‑Instruct 为例,在不同上下文长度(0、8k、16k、32k tokens)下,随着推理步数增加的准确率变化; 可以看到,在没有上下文(Zero context)时表现较好,但随着上下文长度增加,准确率急剧下降,尤其在推理步数上升时尤为明显; 这反映出:随着上下文变长,模型在长期信息整合和追踪方面越来越脆弱,更容易产生逻辑不连贯或记忆错误的输出 arxiv。
Reasoning complexity versus context length
-
缺乏事实校验与推理约束:LLM在生成过程中缺少外部知识检索和逻辑约束,因而可能在推理步骤上出现谬误,进一步导致幻觉输出preprints。例如,对于需要多步推理的问题,模型可能每一步推理看似合理,但综合起来结论谬误(逻辑幻觉);或模型为了迎合用户问题而给出一个牵强附会的解释,而没有检查其合理性。这种情况下,模型并非故意“撒谎”,而是由于内部没有完善的验证机制,不会主动检查自己的结论是否有依据。正如有研究将LLM幻觉比作人类的“幻想”:模型根据已知模式“想象”出了某种答案,却缺乏元认知去辨别真伪nature.com。因此,引入外部事实的评价和校验框架,或让模型自身反思,是减少此类幻觉的重要方向,例如,如下图的事实的评价框架OpenFactCheckacl。
OpenFactCheck
综上,LLM幻觉并非单一原因造成,而是多种因素共同作用的结果。模型在追求流畅生成的同时牺牲了真实性保障,加之知识库不完备、记忆机制缺失、缺乏自我校验,最终表现为各种类型的幻觉。从本质上说,幻觉是当前LLM泛化能力的副产物:模型可以一般化地回答各种问题,但当超出训练分布或需要精准事实时,它往往更愿意“编一个”也不肯沉默。这也是为何幻觉问题具有普遍性和顽固性的根本原因。
2025年最新研究进展分类汇总
幻觉评估方法与基准
统一和细粒度的评估基准:2025年出现了一系列评估基准,旨在全面衡量不同模型的幻觉倾向,并为后续研究提供测试平台。Meta团队的HalluLens就是其中代表arxiv.org。HalluLens不仅提出清晰的幻觉定义框架,将幻觉严格界定为“输出不一致于训练语料或上下文”的情况arxiv.org,还构建了涵盖精确知识问答、长文摘要忠实性和不存在事实的拒答等任务的评测集合,以分别捕捉模型在不同场景的幻觉表现arxiv。
HalluLens
FACTS Grounding Leaderboard则专注于长篇输入的事实一致性评测arxiv.org, 该榜单以测试LLM在长文内容的生成/问答时,能否将回答严格锚定于提供的长文本证据。例如给模型一篇维基百科长文,再提出文中涵盖的问题,检查模型回答是否忠实于文中事实。
Examples from FACTS Grounding
专项评测与领域评测:除了通用基准,2025年也有不少专项幻觉评测。如ACL-2025引入了Reefknot基准,专门用于评估多模态LLM在图像描述中是否存在关系幻觉(relationship hallucination)arxiv。它包含图像及其说明文本,设计任务要求模型回答图像中实体关系的问题,从而判断模型会否凭空臆测图中不存在的关系。
Reefknot
又如MHALO框架(Findings ACL 2025)致力于评估多语言多模态模型作为细粒度幻觉检测器的能力acl,用一个视觉-语言模型去审查文本回答,将其视作“解说员”,看它能否准确指出文本中的幻觉细节。
MHALO
总体而言,2025年的幻觉评测进入标准化与多样化并存的阶段:一方面有统一框架的权威基准,另一方面针对不同模型、不同应用又派生出定制评测方法。这为全面掌握模型幻觉表现提供了工具,也为后续改进奠定了衡量基础。可以预见,将来幻觉评测会更加常态化地融入模型发布和比较中,如同现在衡量模型性能必须报告准确率一样,幻觉率可能成为汇报模型质量的标配指标。
幻觉的检测与预测模型
不依赖外部知识的检测:幻觉检测的方法大致分为依赖外部证据和不依赖外部证据两类。前者要求将模型输出与真实知识比对,后者尝试仅凭模型内部迹象判断。例如,Yang等(2025)提出了MetaQA——一种无需调用检索引擎、也不用查看模型概率的自包含检测方案arxiv。MetaQA基于变形测试(metamorphic testing)思想:对同一问题做轻微改写或加入干扰,再让模型回答,观察输出是否前后不一致。他们假设如果模型先后回答出现矛盾或违背某种逻辑关系,就说明模型最初的回答很可能是幻觉。
MetaQA
类似地,Harvard的另一项研究采用多次采样自洽性来预测幻觉:让模型对同一问题回答多遍,如果答案变化很大甚至互相矛盾,则可信度低,被判为幻觉preprints。这种思路与SelfCheckGPT接近,都是从模型输出的稳定性角度切入。它们的共同优点是不需要真人知识,因而能扩展到人类也难以验证的新奇问题上nature.com。
检索和文本蕴含辅助检测:另一类检测方法借助外部知识库或搜索引擎,对模型输出进行事实验证。2025年的检测系统更加强调精细的证据比对,而非简单判断真伪。例如SemEval-2025任务的方案:它对模型回答按语义角色拆分后,用LLM查询获取每个角色对应的文档片段,再用自然语言蕴含(NLI)模型判断回答片段与文档片段是否矛盾arxiv。只有当某个成分无法从证据推导出时,才标记为幻觉片段arxiv.org。这样的做法等于把幻觉检测问题转化为若干子句级别的NLI判定,细粒度极高,且可以输出哪一部分出了问题,对于人工审查很有帮助。
Span-Level Hallucination Detection Framework
不确定性估计:捕捉模型输出中的不确定性信号是检测幻觉的另一个思路。Farquhar等(2024)的研究显示,可以通过计算语义层面的熵来发现“虚构回答”nature.com。具体地,他们提出让模型对同一问题在意义等价但措辞不同的条件下多次回答,通过统计这些答案在语义向量空间的分布散度,来衡量模型对于该问题的确定性。如果模型在不同随机种子、不同提示下给出截然不同的答案,则说明问题超出其稳定知识范围,输出很可能是不可靠的。这一方法在开放域问答上取得了不错效果,能在无需标准答案的前提下标记出模型何时在“瞎猜”(如下图)。
semantic entropy and confabulation detection
类似地,也有工作利用词级别的置信度来辅助判断:如标记模型输出中高熵词或罕见词所在的句子可能是幻觉,然后重点人工检查这些部分。还有研究关注注意力权重:如果生成过程中文本某些部分的注意力异常集中或涣散,可能表示模型在硬拼内容,被一些论文称作“注意力异常幻觉”检测,例如Lookback Lens可用于早期预警arxiv。当然,这类技术仍在探索中,因为解码时的内部统计与输出正确与否的关系尚不明确,需要大量实验验证。
Lookback Lens
大型模型自我检测:值得一提的是,随着模型规模日益增大,一些研究提出让LLM自我评估或用另一个LLM来评估输出。2025年ACL一篇论文(MHALO)表明,让一个多模态大模型(兼具视觉和文本能力)去读LLM的文本回答,然后判断其中有无幻觉,效果相当不错acl。尤其在复杂场景下,这种模型作为“审稿人”能发现一些常规NLI模型漏掉的不一致。OpenAI等公司也透露,他们在改进GPT-4时,内部使用了GPT-4自己来评判自己输出真假的方法——通过大量prompt工程,使其从回答中找茬。不过,这种方法的风险在于模型自身的盲点仍可能无法识别,但结合其他辅助手段,会是未来部署的一个思路。
MHALO
幻觉缓解策略与降幻觉方法
检索增强与工具使用:检索增强(RAG)是当前缓解幻觉的主要手段之一。通过在生成时调用搜索引擎或知识库,让模型参考真实资料,可以显著减少模型乱编的现象。2025年更进一步的工作把RAG与推理方法相结合。例如,Kumar等(2025)探讨了将链式思维(CoT)与RAG融合的效果。他们让模型在每一步推理时都去检索相关信息,再结合检索结果产出中间结论,然后继续下一步推理arxiv.。
Combining Chain-of-Thought Reasoning and Retrieval-Augmented Generation
结果表明,这种检索型链式推理不仅提高了问答准确率,还降低了幻觉发生率,因为模型始终“有据可依”地推理。此外,工具化思路亦显著流行:很多框架把LLM与计算器、数据库查询、知识图谱等工具对接,让模型不会对数值和事实问题凭空捏造,而是调用工具精确获取(如下图BriefContext)nature。例如在法律场景,用法条检索API;在数学场景,用符号计算库;在日期事件场景,用知识图谱查询。这些都有效减少了纯语言模型因为能力局限导致的幻觉。
BriefContext
思维链与自洽性提升:“让模型多想一步,再回答”是降低幻觉的另一思路。链式思维(CoT)提示最初是为提高推理正确率,后来也被视为减少幻觉的方法之一。2025年有论文直接提出“想得更多,胡编更少”(Think More, Hallucinate Less)的策略HaluSearch arxiv, 受启发于人类认知的System2,引入了双过程推理:模型先用快速直觉给出初步答案,再调用一个慢速深入的推理模块验证或修改该答案。
HaluSearch
这个思路类似人类先直觉回答再反思检查,据称在Wiki开放问答上幻觉率有明显下降。同样,通过自洽性提高模型可靠性也是近期热点。Self-Consistency(如下伪码)技巧让模型生成多个不同解链,然后聚合结果减少随机错误;Self-Verification则鼓励模型在得到一个回答后,重新审视题目和答案,将答案代入提问背景验证其合理性arxiv.org。
提示与约束技巧:Prompt工程中也探索出一些降幻觉的技巧。比如,为防止模型编造不确定内容,可以在提示中加入要求引用来源的指令,或明确说“如果不知道就回答‘我不确定’”,常用的方式还有Chain-of-Verification Prompting(如下图为例),Step-Back Prompting等等。OpenAI在ChatGPT插件模式中增加了“请先检索再回答”的提示模板,引导模型利用工具而非乱猜。还有一些工作在解码时施加约束:如确保输出包含提供的检索证据,或者对高熵词进行惩罚,迫使模型选择更保险的用词preprints。研究者也尝试过禁止模型使用第一人称或减少修饰语等方式,因为观察发现过于花哨、自信的语气往往伴随幻觉。
Chain-of-Verification Prompting
知识注入与对抗训练:除了推理和提示层面的改进,从模型训练角度也有两条路线在2025年兴起:显性知识注入和对抗式降幻觉训练。前者是指在模型中融入结构化知识,以加强其事实准确性acl。一般地,有减少幻觉的两种各种方法。一类方法是在生成时将知识图谱检索到的实体关系作为额外输入,让模型输出必须与这些关系一致;另一类是在训练或微调时,将知识图谱嵌入编码到模型参数,使模型在生成时自动参考图谱信息acl。
Knowledge Graphs (KG) employed to reduce hallucinations in LLMs at different stages
而对抗训练则是通过生成“陷阱”来让模型学会不踩坑。例如,张等(2024)构造了一批容易诱发幻觉的样本,如问题看似常见但实际上无正确答案的案例,然后用这些数据微调模型(R-Tuning),使其在这些情形下学会回答“无可奉告”或查询外部来源acl。
Illustration of R-Tuning to construct refusal-aware datasets D0 and D1
又或者动态生成模型的幻觉输出作为训练样本的反例,训练模型辨别它们并调整输出分布。OpenAI据传在GPT-4训练中加入了这类人类反馈回路,对明显幻觉回答给予强惩罚,以降低发生率stanford。对抗训练需要精心设计,否则可能牺牲模型流畅性,因此目前多用于特定场景(如医疗QA中避免模型胡乱给诊断)。但其思想具有通用性:提前预见模型错误,并在训练中纠正,是提高模型可靠性的有效手段。
参数层面的方法:2025年还有一些工作直接从模型参数和生成机制层面入手缓解幻觉。例如,有研究关注Transformer注意力模式,尝试修改注意力计算使模型对输入更“忠实”。Huang等(2025)探讨了架构归纳偏置对幻觉的影响2025.aclweb.org。他们发现在Seq2Seq架构中引入某些约束(如解码时强制与输入对齐)可减少幻觉输出在翻译场景的发生。这类似早期机器翻译中的约束解码思想。又如,一些论文提出解码策略改进:像上文提及的对比式解码技术,将两组不同输入的logits对比来约束输出(如下图,RVCD)ac。
RVCD(Retrieval Visual Contrastive Decoding)
类似思想在文本LLM上也有尝试:比如引入一个“小模型”来预测大模型下一个词的候选,如果小模型和大模型差异极大,则质疑大模型该候选,进行降权处理。这种“双模型对比”解码策略在一些open-domain QA任务上减少了大模型离谱回答的概率,因为小模型相当于提供了一个独立校验。
总的来看,幻觉缓解是当前LLM研究中极为活跃的领域之一。从数据预处理到模型架构再到推理解码,各个层面都有人尝试施加约束和引导,以让模型输出“老老实实”。需要强调的是,没有任何单一方法可以彻底杜绝幻觉,更现实的做法是多管齐下:一方面改善模型本身对知识和推理的掌握,另一方面在使用模型时配套检索和校验。
幻觉的因果分析与理论模型
知识遮蔽定律:2025年富有代表性的理论进展是提出了量化幻觉发生规律的理论模型。由Zhang等人提出的“知识遮蔽”假设和对数线性定律引起了广泛关注arxiv。他们通过一系列受控实验发现,当模型面对同时涉及“热门概念”和“冷门概念”的问题时,往往倾向于产出与热门概念相关的内容,而忽略冷门信息,导致事实性谬误。例如前述把错当歌手的例子,就是“朝鲜”这一高频知识覆盖了模型对真正歌手姓名的提取arxiv。
Knowledge overshadowing leads to hallucinations
基于实验,他们总结出幻觉率随相对知识流行度和模型规模的增长呈对数线性上升。换言之,模型记忆中越流行、越泛化的知识,会以近似线性的速度挤占正确知识的表达机会(在对数坐标下)。而模型参数越多,这一倾向越明显,因为大模型更充分地学到了流行模式arxiv.org。这一发现首次将幻觉概率与可测量的变量联系起来,可视为一种**“幻觉定律”。
“Scaling law”of hallucination rate
有了这个定律,研究者可以在不运行模型生成的情况下,凭训练语料的统计特征和模型大小预测哪些问题模型易产生幻觉。这一分析丰富了我们对幻觉根源的认识,不再停留在经验描述,而是有了可计算、可验证的理论依据。尽管知识遮蔽理论目前主要针对事实型幻觉,但其方法(通过严格控制训练数据来观察幻觉)为研究其他类型幻觉也提供了范式。
逻辑幻觉理论:对于逻辑不一致型幻觉,2025年也有尝试建立模型的工作。某些研究借鉴了形式逻辑和概率图模型,将LLM的推理过程表示为树状或图状结构,以捕捉其中可能的谬误。例如,有论文提出构建信念树( Belief tree):模型在回答复杂推理题时,先生成一棵包含各子命题的树,然后验证树中是否存在自相矛盾或链条断裂arxiv。如果有,则说明模型推理出现了“逻辑幻觉”。这种思路将幻觉检测和理论分析结合:幻觉不再仅是一句话正确与否,而是推理链这个结构上是否闭合自洽。
An example constructed belief tree
总的说来,幻觉问题的理论研究在2025年方兴未艾。从以往主要靠直觉和经验归纳,逐步走向可验证假设和规律。这些理论工作的重要意义在于:如果我们能预测模型何时会幻觉,就能更有针对性地预防;如果我们理解为什么幻觉产生,就有望在模型结构或训练策略上根本改进。尽管目前的理论仍无法涵盖幻觉的所有情况,但每一项发现(如知识遮蔽定律)都是往终极目标迈出的有力一步。在未来几年,我们期待看到更完整的幻觉理论框架出现,例如可能结合信息论、认知科学甚至哲学视角,对“AI为何胡说八道”给出系统解释。
结论
大语言模型中的“幻觉”现象是当代人工智能面临的重要挑战之一。通过本综述可以看到,幻觉问题具有复杂的成因和多样的表现形式:从事实性错误到上下文不一致、从伪造引文到视觉幻觉,无不反映出现有模型在知识获取、推理和自我监督方面的不足。然而,我们也欣喜地看到,该领域的研究最近取得了丰硕成果——研究者们从评估、检测、缓解、理论等各个方面全面出击,取得了显著进展。特别是在2025年,众多最新论文为我们带来了更深刻的认识和更有效的技术手段,包括明确的幻觉分类体系、新颖的检测算法、融合多种策略的缓解方法以及初步定量理论arxiv。值得注意的是,各行业对LLM幻觉的重视程度与日俱增,以法律领域为代表的高精准度场景已经积累了有益的经验,通过人机协同和制度保障,将幻觉风险降至最低stanford。
尽管如此,我们也应清醒地认识到,消除幻觉并非易事。幻觉源于当前大模型生成机制的内在局限——只要模型仍以统计相关性而非法理逻辑在运作,只要模型缺乏真实世界反馈的闭环,幻觉就难以完全杜绝。因此,从根本上解决幻觉,可能需要下一代模型范式的突破,或者引入强约束的可解释模块。在短期内,研究社区将继续沿着已有道路前行:改进训练数据质量、丰富外部知识接口、加强模型自校验能力、完善评测和理论指导。这些努力相辅相成,终将汇聚成让AI更加诚实可信的关键推动力。