微软:AI聊天机器人越聊越“笨”,复杂对话中不可靠性增长112%
创始人
2026-02-21 00:35:34
0

IT之家 2 月 20 日消息,当用户与 AI 聊天机器人进行长对话时,可能会感觉它们变得越来越“笨”,而这种感觉如今有了科学依据。

据 Windows Central 今日报道,微软研究院与赛富时(Salesforce)联合发表的一项研究证实,即使是目前最先进的大语言模型,在多轮对话中的可靠性也会急剧下降。

研究人员对包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在内的 15 款顶尖模型进行了超过 20 万次模拟对话分析,揭示出一个被称为“迷失会话”的系统性缺陷。

数据显示,这些模型在单次提示任务中的成功率可达 90%,但当同样的任务被拆解成多轮自然对话后,成功率骤降至约 65%。

研究指出,模型的“智力”本身并未显著下降 —— 其核心能力仅降低约 15%—— 但“不可靠性”却飙升 112%。也就是说,AI 大模型仍然具备解决问题的能力,但在多轮对话中变得高度不稳定,难以持续跟踪上下文。

报告指出,当前大多数模型主要在“单轮”基准测试下进行评估,即一次性接收全部指令的理想实验环境。但现实中的人类交流通常是渐进式的,信息在多轮互动中逐步补充。研究发现,一旦任务被“拆分”到多个回合中,即便是最先进的模型,也容易出现系统性失误。

研究人员进一步分析了造成性能下降的行为机制。

  • 首先是“过早生成”:模型往往在用户尚未完整说明需求前就尝试给出最终答案。一旦在早期回合中形成错误假设(IT之家注:可能是指第一印象),模型后续便会在该错误的基础上继续推理,而不是随着新信息的加入进行修正,从而导致错误逐步放大。
  • 其次是“答案膨胀”。在多轮对话中,模型的回复长度比单轮对话增加了 20% 至 300%。更长的回答往往包含更多假设与“幻觉”,这些内容随后被纳入对话的持续上下文,从而进一步影响后续推理的准确性。

令人意外的是,即使是配备了额外“思考词元”(thinking tokens)的新一代推理模型,如 OpenAI o3 和 DeepSeek R1,也未能显著改善在多轮对话中的表现。研究还发现,将模型温度参数设置为 0—— 这一常用于确保一致性的技巧 —— 对此类对话衰减几乎没有防护作用。

这一发现对当前 AI 行业的评估方式提出了质疑。研究人员指出,现有的基准测试主要基于理想的单轮场景,忽略了模型在真实世界中的行为。对于依赖 AI 构建复杂对话流程或智能体的开发者而言,这一结论意味着严峻挑战。

目前最有效的应对方式反而是减少多轮往返交流,将所有必要数据、约束条件和指令一次性在单个完整提示中提供,以提高输出一致性。

相关内容

热门资讯

“五一”假期消费活力全面释放,... 本报(chinatimes.net.cn)记者张智 北京摄影报道 漫步在拥有200年历史的留坝老街,...
太阳能:回购计划实施完毕 20... 上证报中国证券网讯 太阳能5月7日晚间公告,截至4月30日,公司通过股份回购专用证券账户以集中竞价交...
原创 5... 2026年5月7号,国际金价刚反弹到4690美元一盎司附近,就有不少分析人士站出来提醒了,说大伙得注...
原创 日... 5月2日,一架从日本飞来的专机降落在北京首都国际机场。机舱门打开,走下来的是日本自民党核心人物——选...
原创 汪... 大疆深陷专利权属纠纷,此次事件矛头直指内部离职核心技术人员,此番情形对于整个中国硬科技领域而言,无疑...
信也科技股权曝光:董事长顾少丰... 雷递网 雷建平 5月7日 拍拍贷母公司信也科技(FinVolution,股票代码:“FINV”)日前...
高端稳盘、数智破局:泸州老窖穿... 厂商不再博弈,而是共同面向终端消费创造价值。 作者 | 徐长卿 编辑丨高远山 来源 | 野马财经 2...
4月文旅融资超260亿元,钱都... 2026年4月,中国文旅投融资市场呈现出一幅复杂图景。根据迈点不完全统计,本月文旅行业共发生投融资事...
送别,这位让中国金矿储量翻倍的... 据中国工程院官网发布的信息,矿床地质学家、中国工程院院士 陈毓川 ,于2026年5月6日逝世。 ...
时隔三年,离岸人民币再升破6.... 北京商报讯(记者 廖蒙)人民币汇率再创阶段性新高。5月7日,中国人民银行授权中国外汇交易中心公布,当...
三星家电要撤离中国市场 实探三... 5月6日晚,三星宣布在中国大陆市场停止销售含电视、显示器在内的所有家电产品。随即,#三星家电退出大陆...
月之暗面Kimi拟融资20亿美... 来源:环球网 【环球网科技综合报道】5月7日消息,据财联社报道,国内人工智能大模型企业月之暗面(Ki...
一季度险资跻身641家上市公司... Wind资讯数据显示,截至一季度末,险资合计重仓(成为上市公司前十大流通股股东)A股641只,较20...
原创 2... 一套房子值400万,每年还在贬值;一套房子月租只要3000块,住得还不错。这笔账,搁几年前没人敢算,...
002898、300029,拟... 【导读】两公司收到终止上市事先告知书 中国基金报记者 张舟 5月7日晚间,两家A股公司拉响退市警报。...
年内暴涨77%!韩国股市创历史... 本报(chinatimes.net.cn)记者叶青 北京报道 5月7日,韩国股市延续史诗级暴涨行情,...
抖店代运营全链路服务指南:德州... 导语:在工业品电商运营领域,抖店代运营需兼顾平台规则适配性与工业采购逻辑专业性。基于行业白皮书及公开...
“钴业大王”陈雪华再赌资源周期... 图片来源:图虫创意 “钴业大王”陈雪华再出手,拟超14亿元布局非洲锂矿。 5月7日上午,华友钴业(6...
巴菲特年化20%,他76%:盈... 月收益5%,听起来好像不高。但如果按复利算,一年接近76%。这是什么概念?股神巴菲特长期年化,也不过...
4月末中国外汇储备规模为341... 国家外汇管理局统计数据显示,截至2026年4月末,我国外汇储备规模为34105亿美元,较3月末上升6...