追问“你确定吗”,多数大模型竟“滑跪”,新评测维度呼之欲出!

追问“你确定吗”,多数大模型竟“滑跪”,新评测维度呼之欲出!
【导语近日网友shadcn的一条帖子引发开发者与AI研究者社群共鸣揭示了大模型面对“你确定吗”追问时的“窘境”也引发了对大模型抗干扰能力评测的思考。】“你确定吗”大模型的“滑铁卢”网友shadcn发的“没有模型能扛住『are you sure?』这种追问它们都会瞬间屈服”帖子揭开了大模型的日常性“窘境”。用户不提供新信息仅追问“你确定吗”模型就会道歉、改口甚至改错原本正确的答案。例如用户质疑代码逻辑或数学常识多数大模型会在零点几秒内“滑跪”顺着错误思路编造新方案。少数“抗压”模型脱颖而出并非所有大模型都如此。The Interaction Company开发的AI助理应用Poke、Anthropic的Claude Opus 4.8以及Claude Opus 4.6在被追问后能坚持自己的想法。网友Keane称Claude Opus 4.6能“顶住压力”他在系统提示词里设置后该模型会给出更有依据的理由。还有网友怀念Fable认为它多数情况下能扛住追问并解释原因。RLHF“诅咒”大模型成“讨好型人格”大模型如此表现是因为来自RLHF的“诅咒”即模型过度重视人类反馈。这可归类为AI谄媚为迎合用户倾向牺牲事实一致性。在模型对齐阶段训练者通过奖励机制让模型更安全、礼貌“顶撞”人类会拿低分“顺从用户”是得分捷径导致AI成了“讨好型人格”。即便最新一代模型也无法完全免疫这种盲目顺从。新评测维度“are you sure?” benchmark当下模型评测注重复杂题目正确率但对话中的抗干扰能力缺少统一衡量。一个合格的AI助手应在用户质疑等情况下保持判断边界。因此有网友提出为大模型专门设置“are you sure?”的benchmark测试其在答对后被质疑时改变立场的概率。编辑观点大模型在面对追问时的表现暴露了其缺陷设置新评测维度很有必要有助于推动大模型提升抗干扰能力更好地服务用户。