大模型幻觉怎么治?引用溯源兜底实操
📅 2026/6/29 18:39:25
👁️ 次浏览
先把结论甩前面想让大模型别瞎编靠 prompt 写「请不要编造」基本没用得逼它每句话都挂知识库的引用来源查不到就老老实实说不知道——这套组合拳我跑了两周幻觉肉眼可见地降了。下面是我自己踩过坑后总结的步骤。事情起因挺糟心的。上个月我给一个内部客服场景做问答机器人测试同事问了句「我们 7 天无理由退货的运费谁出」模型答得那叫一个流畅条款编号、责任划分、甚至「依据《消费者权益保护法》第 X 条」都给我编出来了。我一查知识库根本没这条。那一刻说实话我有点冒汗——要是这话发给真实用户售后得炸。so问题不是模型笨是它太想讨好你宁可编也不肯空着手回来。治法分三步走。第一步怎么强制它带引用核心就一句话把「答案」和「证据」绑死,没证据不许出答案。改造检索环节给每个知识块打 ID。我把知识库切片的时候,每个 chunk 存进向量库时都带上doc_idchunk_id 原文片段。检索回来的不是一坨纯文本,是带编号的结构化片段。system prompt 里把输出格式钉死。不是泛泛要求「请引用」,而是给死格式:你只能依据【参考资料】回答。 每个结论后面必须紧跟来源标记 [来源:chunk_id]。 没有任何参考资料支撑的句子禁止输出。检索结果按编号喂进去。【参考资料】 [1] (chunk_0312) 退货运费由消费者承担除非商品存在质量问题… [2] (chunk_0455) 质量问题退货运费由商家承担…这样模型答「质量问题退货运费商家出 [来源:chunk_0455]」,你一眼能核对。我测下来,带强制引用格式后,那种张口就来的法条编号基本消失了——因为它发现资料里压根没有,凑不出[来源]。做法幻觉表现可核查性裸 prompt 问答高爱编条款几乎为零让它「尽量引用」中引用还是假的看运气格式钉死chunk_id明显下降能逐句对照第二步查不到怎么办这步才是真正的兜底,也是最容易被忽略的。光要求引用不够,得给模型一条「体面的退路」,否则它为了凑引用会去硬蹭最沾边的那个 chunk,照样错。设相似度阈值,低于线直接判为「无依据」。我用的余弦相似度,卡在 0.78这个值跟你的 embedding 模型强相关,别照抄,自己 grid 一下。检索回来 top 片段都低于阈值,直接不把资料喂给模型,后端就返回固定话术「这个我没查到」。prompt 里显式授权它说不知道。很多人忘了这条。你得明明白白写:「若参考资料不足以回答,请回复『根据现有资料无法确认』,不要猜测。」给了这句,模型才敢空手而归。做一道事后校验。答案生成后,我再跑一遍轻量检查:把回答里每个[来源:xxx]抠出来,验证这个 chunk_id 真在本次检索结果里、且原文确实支撑该句。对不上的,拦截重答或降级成「无法确认」。这步拦下来过好几次模型自己编 chunk_id 的骚操作……对,它连引用编号都能编,离谱。搭这套验证我没写多少代码。智能体那部分是在一个零代码就能配知识库的平台上拖出来的,挂个现成大模型、把切好片的私有文档传上去、相似度阈值和兜底话术在界面上配,一个下午搞定了第一版。当然第一版很干,纯能跑,话术生硬得像机器人念稿,后面又手动调了好几轮 prompt 才像个人话。它也只干「检索约束输出」这种杂活,真正的业务判断还得我自己定规则,别指望它替你思考。结论折腾下来我的体会是:大模型的幻觉治不了根,但能「关进笼子」。这个笼子就两根栏杆——答案必须挂可核查的来源,够不着就允许它说不知道。把这两条做扎实,模型从「自信地胡说」变成「诚实地有限」,对生产环境来说,后者安全太多了。代价当然有:相似度阈值卡严了,一些其实能答的也被挡成「无法确认」,召回率掉了点;事后校验也多一道延迟。这是我愿意付的——客服场景里,答错一次的成本远高于答「不知道」一次。(模型/API 我直接调的讯飞星辰 MaaS,现成大模型拿来就用,知识库 RAG 也在上面配的,没自己部署算力)你们治幻觉是靠引用溯源,还是另有招?阈值都卡在多少?评论区聊聊,我那 0.78 调得到底对不对我自己也没底。
导读
雨、雪、雾等恶劣天气会使可见光图像产生雨丝、雾化、过曝以及纹理缺失等问题,并且还会使红外图像中局部对比度降低。对于红外-可见光融合而言,困难之处不在于“把两幅图合并在一起”,而是在于如何进行退化恢复与跨模态互补。
本文提出…
📅 2026/6/29 18:39:25
1. 环境准备与GCC降级
在Ubuntu 20.04上编译老版本的OpenWrt 15.05,首先要解决的就是工具链兼容性问题。新系统默认的GCC 9.x版本会导致大量语法和链接错误,就像开着一辆2023年的跑车去参加1998年的赛车比赛——发动机太先进反而会违反比赛规则。
我实际…
📅 2026/6/29 18:34:24
1. 项目概述:一个能“顺藤摸瓜”的Burp插件做安全测试的朋友,尤其是搞Web应用和API接口这块的,估计都遇到过这种场景:你在Burp Suite里看着流量哗哗地过,突然在某个响应里瞥见一个陌生的接口路径,比如/api/…
📅 2026/6/29 18:34:24
三门课分别是 Codex(AI 编程)→ Seedance(AI 视频)→ Agent(AI 智能体),刚好构成了一条"从工具→内容→系统"的能力升级路径。这个结构本身就是一个很好的卖点。一、产品定位与打包策…
📅 2026/6/29 21:05:41
先简单说下它解决的问题。我们平时做项目,最怕的其实不是报错,而是报错了没人知道。很多时候服务已经异常了,接口已经慢了,线程已经堆起来了,但是如果没有专门去看日志、看监控,就很容易错过。所以我做这个…
📅 2026/6/29 21:05:41
数据要素是数字经济发展的关键生产要素,是数字经济发展的基础。加快培育数据要素市场是全面建设社会主义现代化国家的一项基础性工作,对推动经济高质量发展、建设数字中国和数字强省、促进经济社会数字化转型具有重要意义。星环科技作为企业级AI基础设施…
📅 2026/6/29 21:05:41
DeepEval:专业级LLM评估框架的5个核心实战特性解析 【免费下载链接】deepeval The LLM Evaluation Framework 项目地址: https://gitcode.com/GitHub_Trending/de/deepeval
DeepEval是一个开源的大型语言模型(LLM)评估框架,…
📅 2026/6/29 21:05:41
这次我们来看一个名为palmier-io / palmier-pro的项目。从项目名称和关键词来看,这很可能是一个与本地AI模型部署、推理或工作流管理相关的工具或框架。这类项目的核心价值在于降低AI应用的门槛,让开发者或研究者能更便捷地在本地环境中运行复杂的模型&a…
📅 2026/6/29 21:05:41
Windows本地训练LoRA模型完全指南:从环境配置到效果调优
一、前言:为什么自己训练LoRA
LoRA(Low-Rank Adaptation)是目前最轻量的模型微调方案。相比动辄几十GB的全量模型训练,LoRA只需几百MB的附加文件,就…
📅 2026/6/29 21:00:38
在商业化内容生产、项目策划、短视频脚本开发场景中,AI模型的创意发散能力、逻辑架构能力、落地执行能力是核心考核指标。不同大模型的训练侧重不同,在方案撰写、脚本创作场景的输出质量差距极大。
为给技术从业者、内容创作者、运营人员提供精准的模型…
📅 2026/6/29 0:00:42
1. 这不是教科书里的“蒙特卡洛离策略”,而是我在强化学习项目里亲手调通的那套逻辑“Monte Carlo Off-Policy Explained”——看到这个标题,别急着去翻Sutton那本绿皮书第5章。我带过三个工业级强化学习落地项目,从智能仓储调度到金融风控策…
📅 2026/6/29 0:00:43
1. 转型背景与核心驱动力最近几年,身边不少做Java后端开发的朋友,都开始或多或少地关注起安全开发这个方向。我自己也是从写了七八年Java业务代码,一步步转向了安全领域,现在主要做代码审计和自动化安全工具开发。这个转变不是一时…
📅 2026/6/29 0:00:43
6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…
📅 2026/6/29 4:18:42
引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…
📅 2026/6/29 4:18:42