微软:AI聊天机器人越聊越“笨”,复杂对话中不可靠性增长112%
创始人
2026-02-21 00:35:34
0

IT之家 2 月 20 日消息,当用户与 AI 聊天机器人进行长对话时,可能会感觉它们变得越来越“笨”,而这种感觉如今有了科学依据。

据 Windows Central 今日报道,微软研究院与赛富时(Salesforce)联合发表的一项研究证实,即使是目前最先进的大语言模型,在多轮对话中的可靠性也会急剧下降。

研究人员对包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在内的 15 款顶尖模型进行了超过 20 万次模拟对话分析,揭示出一个被称为“迷失会话”的系统性缺陷。

数据显示,这些模型在单次提示任务中的成功率可达 90%,但当同样的任务被拆解成多轮自然对话后,成功率骤降至约 65%。

研究指出,模型的“智力”本身并未显著下降 —— 其核心能力仅降低约 15%—— 但“不可靠性”却飙升 112%。也就是说,AI 大模型仍然具备解决问题的能力,但在多轮对话中变得高度不稳定,难以持续跟踪上下文。

报告指出,当前大多数模型主要在“单轮”基准测试下进行评估,即一次性接收全部指令的理想实验环境。但现实中的人类交流通常是渐进式的,信息在多轮互动中逐步补充。研究发现,一旦任务被“拆分”到多个回合中,即便是最先进的模型,也容易出现系统性失误。

研究人员进一步分析了造成性能下降的行为机制。

  • 首先是“过早生成”:模型往往在用户尚未完整说明需求前就尝试给出最终答案。一旦在早期回合中形成错误假设(IT之家注:可能是指第一印象),模型后续便会在该错误的基础上继续推理,而不是随着新信息的加入进行修正,从而导致错误逐步放大。
  • 其次是“答案膨胀”。在多轮对话中,模型的回复长度比单轮对话增加了 20% 至 300%。更长的回答往往包含更多假设与“幻觉”,这些内容随后被纳入对话的持续上下文,从而进一步影响后续推理的准确性。

令人意外的是,即使是配备了额外“思考词元”(thinking tokens)的新一代推理模型,如 OpenAI o3 和 DeepSeek R1,也未能显著改善在多轮对话中的表现。研究还发现,将模型温度参数设置为 0—— 这一常用于确保一致性的技巧 —— 对此类对话衰减几乎没有防护作用。

这一发现对当前 AI 行业的评估方式提出了质疑。研究人员指出,现有的基准测试主要基于理想的单轮场景,忽略了模型在真实世界中的行为。对于依赖 AI 构建复杂对话流程或智能体的开发者而言,这一结论意味着严峻挑战。

目前最有效的应对方式反而是减少多轮往返交流,将所有必要数据、约束条件和指令一次性在单个完整提示中提供,以提高输出一致性。

相关内容

热门资讯

工商银行叫停个人贵金属竞价交易... 6月24日,宣布自2026年7月24日(星期五)日终清算时起,停办代理上海黄金交易所(以下简称“上金...
原创 中... 这个问题这两年被反复提起,几乎成了茶余饭后的固定话题。 一边是文件里、新闻里天天讲要让大家敢花钱、多...
内行人预测:明后年买房,买房者... 前阵子跟一个在房产中介干了七八年的朋友吃饭,聊到现在的行情。 他说了一句话我印象挺深:“现在买房的人...
数智赋能中小企业转型 共探亚太... 上证报中国证券网讯(记者 徐潇潇)6月24日,2026年亚太经合组织(APEC)中小企业工商论坛在深...
《自然》刊文再质疑微软量子计算... IT之家 6 月 25 日消息,据路透社报道,科学期刊《自然》最新刊发的一篇评论文章,对微软去年宣称...
个税汇算本月底结束 收到“补税... 2025年度个人所得税综合所得汇算清缴将在6月30日结束。届时,部分纳税人将会收到税务部门通过短信、...
钉钉前CEO无招卸任公司法定代... 6月25日,天眼查App显示,近日,钉钉科技有限公司发生工商变更,钉钉前CEO无招(陈航)卸任法定代...
券商板块盘初拉升 华安证券涨超8%,招商证券、财达证券、天风证券、长江证券纷纷上扬。 (本文来自第一财经)
委内瑞拉1分钟内发生7.1级和... 当地时间6月24日,委内瑞拉北部海岸附近发生7.5级地震。委内瑞拉首都加拉加斯有明显震感。 地震发...
金价、银价、油价均大跌,金饰克... 6月24日,金价、银价、油价均大跌。国际贵金属市场24日出现剧烈波动。现货黄金盘中跌破每盎司4000...
原创 这... 当一个行业既能保持增长又具备新发展潜力,其前景往往更值得期待。 作者|杨知潮 如果要为这届抖音商城6...
新氧披露拟建真实世界数据库,A... 2026年夏季达沃斯论坛期间,新氧集团创始人金星公开披露了公司在轻医美智能化领域的最新规划,包括建设...
硬科技IPO红利释放,证券保险... 截至6月25日10点10分,上证指数跌0.08%,深证成指涨0.76%,创业板指涨0.96%。超级电...
实控人郭恒华涉嫌非法吸存被刑拘... 6月25日, 华恒生物(688639.SH)今日开盘20CM一字跌停,报17.12元/股创年内新低,...
硬科技晚间集中披露投资公告 封... 硬科技6月24日晚间集中披露投资公告。 长电科技(600584.SH)宣布计划在 上海临港(6008...
今年前5个月马鞍山港外贸货物吞... 全市1至5月水运直航和集装箱吞吐量稳步增长。 建强服务机制。优化港口服务流程,为国际航线船舶提供“即...
央行将在6月29日、6月30日... 6月25日电 据央行网站消息,为更好匹配银行体系短期流动性需求,中国人民银行将在6月29日、6月30...
上银投行 擎动资本|走进人工智... 上海银行致力于打造以撮合交易为特色的投资银行服务体系,秉持成为“对公客户经营赋能枢纽、资本市场生态链...
闪现!马云低调现身麻省理工和哈... 6月25日,有网友偶遇阿里巴巴创始人马云,其先后现身哈佛大学、麻省理工学院校园。 网友拍摄画面显...
欣旺达动力科技公司增资至132... 每经AI快讯,天眼查App显示,近日,欣旺达动力科技股份有限公司发生工商变更,注册资本由约95.7亿...