微软:AI聊天机器人越聊越“笨”,复杂对话中不可靠性增长112%
创始人
2026-02-21 00:35:34
0

IT之家 2 月 20 日消息,当用户与 AI 聊天机器人进行长对话时,可能会感觉它们变得越来越“笨”,而这种感觉如今有了科学依据。

据 Windows Central 今日报道,微软研究院与赛富时(Salesforce)联合发表的一项研究证实,即使是目前最先进的大语言模型,在多轮对话中的可靠性也会急剧下降。

研究人员对包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在内的 15 款顶尖模型进行了超过 20 万次模拟对话分析,揭示出一个被称为“迷失会话”的系统性缺陷。

数据显示,这些模型在单次提示任务中的成功率可达 90%,但当同样的任务被拆解成多轮自然对话后,成功率骤降至约 65%。

研究指出,模型的“智力”本身并未显著下降 —— 其核心能力仅降低约 15%—— 但“不可靠性”却飙升 112%。也就是说,AI 大模型仍然具备解决问题的能力,但在多轮对话中变得高度不稳定,难以持续跟踪上下文。

报告指出,当前大多数模型主要在“单轮”基准测试下进行评估,即一次性接收全部指令的理想实验环境。但现实中的人类交流通常是渐进式的,信息在多轮互动中逐步补充。研究发现,一旦任务被“拆分”到多个回合中,即便是最先进的模型,也容易出现系统性失误。

研究人员进一步分析了造成性能下降的行为机制。

  • 首先是“过早生成”:模型往往在用户尚未完整说明需求前就尝试给出最终答案。一旦在早期回合中形成错误假设(IT之家注:可能是指第一印象),模型后续便会在该错误的基础上继续推理,而不是随着新信息的加入进行修正,从而导致错误逐步放大。
  • 其次是“答案膨胀”。在多轮对话中,模型的回复长度比单轮对话增加了 20% 至 300%。更长的回答往往包含更多假设与“幻觉”,这些内容随后被纳入对话的持续上下文,从而进一步影响后续推理的准确性。

令人意外的是,即使是配备了额外“思考词元”(thinking tokens)的新一代推理模型,如 OpenAI o3 和 DeepSeek R1,也未能显著改善在多轮对话中的表现。研究还发现,将模型温度参数设置为 0—— 这一常用于确保一致性的技巧 —— 对此类对话衰减几乎没有防护作用。

这一发现对当前 AI 行业的评估方式提出了质疑。研究人员指出,现有的基准测试主要基于理想的单轮场景,忽略了模型在真实世界中的行为。对于依赖 AI 构建复杂对话流程或智能体的开发者而言,这一结论意味着严峻挑战。

目前最有效的应对方式反而是减少多轮往返交流,将所有必要数据、约束条件和指令一次性在单个完整提示中提供,以提高输出一致性。

相关内容

热门资讯

黄金、原油强势反弹!怎么看大宗... 来源:证券时报 震荡的商品市场迎来了反弹。 2月19日,亚洲交易时段黄金、原油延续反弹,金价重新站上...
微软:AI聊天机器人越聊越“笨... IT之家 2 月 20 日消息,当用户与 AI 聊天机器人进行长对话时,可能会感觉它们变得越来越“笨...
原创 2... 2026年,消费市场复苏势头持续向好,大量企业步入规模化扩张的关键周期,但“融资难、融资贵、融资慢”...
原创 美... 美国财政部数据显示,2025年11月中国持有美国国债规模已降至6826亿美元,这比2013年峰值1....
体内有癌,私处先知!私处出现3... 38岁的王女士近半年总觉外阴瘙痒,以为是普通炎症,自己买洗液冲洗、涂药膏,却反复发作。直到某天发现局...
港股节后表现不一,A股影响几何... 最近港股市场分化得让人摸不着头脑:有的板块借着消息单日大涨超20%,有的却在热门行情里突然跳水。身边...
微软提出内容溯源“组合方案”,... IT之家 2 月 20 日消息,微软昨天向《麻省理工科技评论》杂志分享一份“如何证明网络内容真实性”...
原创 高... 高人预测:5年后,农村最值钱的不是房子和车子,而是这“3样” 走在如今的乡间小路上,满眼都是新盖的...
原创 被... 五千五百亿美元,听着是天文数字?谁能想到背后其实是一场“你出钱、我划项目、你别反对、我保证不加税”的...
千亿融资渐近,大模型赛道的价值... 窗外的车流声渐远,只剩下台灯的暖光落在笔记本上,刚刷到一条关于AI赛道的重磅消息,心里没了白天的亢奋...
原创 2... 2026年的春节长假已经过半了,有不少网友都在讨论一个话题:就是2026年,家里有多少存款,才算得上...
电商重磅推出 2026 春夏时... 作为行业趋势的洞察者,POP 趋势始终以精准的趋势研判把握先机,以前瞻视野助力品牌打破传统经营边界。...
原创 今... 2026年春节前后,国内成品油价格经历了一轮“过山车”行情,在去年年末连续三次下调、累计每吨降价29...
原创 一... 欧洲最近又闹出个大动静——丹麦首相弗雷泽里克森居然公开喊话,要西方放开限制,让乌克兰用远程导弹直接打...
开年迎考验:港股2-3月限售股... 农历丙午马年伊始,香港股市在阵阵“开门红”的期盼中拉开帷幕。然而,对于部分上市公司而言,新春的喜庆气...
贵阳市全力做好2026年春节重... 日前,记者从省发展改革委获悉,贵阳市发展改革委与市有关部门协同联动,切实抓好工作任务落实,保障市场供...
原创 朗... 众所周知,美国总统特朗普在上台之后,在全球范围内的行动就从未停止过,其实大搞所谓的全球贸易战,对全世...
迪信通股价异动但成交低迷,中期... 来源:经济观察网 经济观察网 根据公开信息,截至2026年2月20日,迪信通(06188.HK)近期...
原创 掌... 金融圈内流传着一个令人不安的数字,3000亿美元,这个数字并非某省的年GDP,也不是某个巨型央企的市...
港交所主席唐家成:排队等候上市... 据每日经济新闻消息,2月20日,农历正月初四,香港金融市场迎来丙午马年首个交易日。香港交易所(以下简...