智东西
坐着 | 王涵
编辑 | 漠影
智东西5月20日报道,继2025年4月25日百度在Create 2025 AI开发者大会上发布文心大模型4.5 Turbo及X1 Turbo后,百度于今日针对相关技术成果进行了深度解读与数据更新。
在此次活动中,百度集团副总裁吴甜、中国信息通信研究院人工智能研究所平台与工程化部主任曹峰及用户代表,围绕文心大模型最新技术进展、全球大模型发展趋势、大模型能力测评及文心大模型的使用体验等内容展开分享。
回溯至4月25日,百度创始人李彦宏在Create 2025百度AI开发者大会上正式发布了文心大模型4.5 Turbo及X1 Turbo两个新版本。他提到,当时市场上的部分模型仍存在模态单一、幻觉率高、响应速度慢及使用成本高等问题。为突破这些瓶颈,百度推出了具备多模态交互能力、强推理性能及低成本优势的新一代文心大模型。
时隔一个月,百度通过AI开放日活动进一步披露了新模型的技术要点。吴甜在解读中强调,文心大模型4.5Turbo在多模态训练效率上实现1.98倍提升,其代码智能体已为超过700万名开发者提供服务支持。中国信通院主任曹峰还当场宣布,文心大模型X1 Turbo成为国内首个通过可信AI大模型推理能力评估的大模型。
一、学习效果提高1.98倍,多模态理解效果提升31.21%
文心大模型4.5 Turbo是基于4.5版本的多模态大模型,针对不同模态数据在结构、规模、知识密度上的差异,通过多模态异构专家建模、自适应分辨率视觉编码、时空重排列的三维旋转位置编码、自适应模态感知损失计算等技术的全面升级。
百度集团副总裁吴甜分享到,这一升级大幅提升跨模态学习效率和多模态融合效果,学习效率提高1.98倍,多模态理解效果提升31.21%。
▲百度集团副总裁吴甜就技术创新进行讲解
在后训练方面,吴甜称百度研制了自反馈增强的技术框架,基于大模型自身的生成和评估反馈能力,实现了“训练-生成-反馈-增强”的模型迭代闭环。
她还讲到,在训练阶段,文心通过融合偏好学习的强化学习技术,实现多元统一奖励机制,提升了对结果质量判别的准确率。其中,多元统一的奖励机制涵盖了答案正确性、执行反馈、思想深度、指令遵循、工具调用合理性及回答多样性等维度,指导模型行为向更优方向发展。
另外,深度思考模型训练则模拟人类思维模式,设计了边思考边行动、先思考后行动、行动后反思调整等多种路径,结合多元统一的奖励机制,实现了思考和行动链的端到端优化,大幅提升了跨领域的问题解决能力。
数据建设是模型训练的重要基础。吴甜分享称,文心大模型通过数据挖掘、合成、分析与评估的闭环流程,结合第一性原理驱动、稀缺数据挖掘及线上反馈数据融合,构建高质量训练数据。多模态数据建设方面,动态平行数据构建和视觉知识引入进一步增强了模态间的信息共享。
在会上,吴甜还用多个应用案例,展现了文心大模型4.5 Turbo的多模态处理与理解能力,包括精准OCR与翻译、复杂画图任务处理、视频内容解析及多模态解题能力。
二、代码智能体已服务700多万名开发者,飞桨3.0框架提升异构多芯适配能力
吴甜在演讲中提到,大模型的能力进一步拓展、效率进一步提升之后,可以探索更前瞻、更有想象力的创新应用。
在代码场景上,基于文心大模型的语言和代码能力,百度研制了代码智能体和智能代码助手——文心快码。会上了解到,百度每天新增的代码中,文心快码生成的代码占比已超过40%。据悉,文心快码向全社会开放,截至目前已累计服务760万名开发者。
数字人场景下,吴甜分享称,百度研制了“剧本”驱动多模协同的超拟真数字人技术,实现了语言、声音、形象的协调一致。目前该技术已应用于10万以上的数字人主播,直播转化率提升31%,直播开播成本下降80%。
她还特别强调,文心大模型的能力拓展和效率提升,得益于飞桨文心的联合优化,包括框架模型的联合优化,也包括框架算力的联合优化。通过训练和推理的技术创新,文心4.5 Turbo训练吞吐达到文心4.5的5.4倍,推理吞吐达到8倍。
据悉,飞桨与文心生态已拥有2185万名开发者、67万家企事业单位及110万个模型,并落地了7个产业赋能中心、7个教育创新中心和2个数据生态中心。
三、从分析到生成:全球大模型能力演进现状
中国信通院人工智能研究所平台与工程化部主任曹峰,就全球大模型能力演进现状和趋势进行了分享,还特别解读了文心大模型的推理能力测评结果。
曹峰分享称,自2017年起,人工智能在多个领域已超越人类能力。至2022年,大模型技术兴起,推动人工智能能力快速演进,尤其在多元任务理解、代码以及多模态理解等方面显著提升。大模型不仅增强了基础能力,还衍生出新的能力,如文档编写、代码生成与融合、视频和图像生成等。
▲中国信通院人工智能研究所平台与工程化部主任曹峰就全球大模型能力演进现状和趋势进行演讲
大模型在文档编写领域实现了从简单文案生成到复杂论文撰写的全面覆盖,显著提升了内容创作的效率与质量。曹峰讲到,在代码编写方面,大模型已超越基础编程范畴,深度融入软件工程流程,涵盖代码解释、注释添加、错误检查以及测试用例生成等关键环节,极大增强了软件开发的智能化水平。
此外,大模型在科研领域亦展现出巨大潜力,特别是在生物医药和材料研发等前沿领域得到广泛应用,有效推动了科研进程,并显著提升了自动驾驶仿真技术的精准度与可靠性。
四、大模型发展趋势:更聪明、更便宜、更专业
曹峰认为,大模型的发展趋势表现为大模型更聪明、训练和推理成本更低、涌现出大量更专业的模型,推理模型内置思维链以及大模型向多模态方向发展。
他分析称,基础模型的规模与性能增长稳定,而推理模型的复杂推理和数学题解决能力显著提升。通过架构优化,大模型的训练和推理成本大幅降低,推理成本较初期下降了至少90%。
随着技术的演进,行业内出现大量专业模型,如代码模型、科学模型等,这些专业模型擅长解决特定领域问题;推理模型将人类思考过程融入模型本身,从而提升专业知识和输出能力;多模态模型融合生成与理解能力,并探索强化学习融入,以提升慢思考能力。
尽管当前大模型的能力显著增强,但其仍存在不可解释性、在确定性要求高的场景下容易出现幻觉问题、面临动态场景下的实时学习挑战,以及在特定场景下存在数据获取困难等诸多问题。
五、国内首款!文心X1 Turbo通过可信AI大模型推理能力评估
曹峰在演讲中提到,大模型输出结果评估方法正加速演进。在大模型基准测试中,对模型结果进行评估最为关键,评估方法一般分为人工评估、自动化评估与大模型作为裁判三种形式,其中能力最强的大模型代替人工评估的方式得到广泛关注。
大模型评测机制和体系围绕大模型发展不断创新,其测试关键技术创新包括模型缺陷自动挖掘、真实性场景测试、高水平测试数据以及人机对齐的裁判模型。
曹峰认为基础模型沿多维方向持续拓展。回顾2024年,大模型已实现从语言大模型向深度复杂推理及多模态侧多维度能力拓展,包括多模态拓展能力边界、端侧部署加快模型应用等。展望2025年,他预测到,随着大模型技术的创新发展,多模态与复杂推理将持续突破,端侧加速落地,垂直领域精准深耕,具身智能崭露头角,合力驱动产业升级。
在最后,曹峰还特别展示了百度文心大模型X1 Turbo的测评结果,并颁发中国信通院可信AI大模型推理能力评估证书。
百度文心大模型X1 Turbo在24项能力评估中,16项达5分、7项达4分、1项达3分,综合评级获当前最高级“4+级”,成为国内首款通过该测评的大模型。
他进一步解释称,评估结果表明,文心X1 Turbo擅长结构化的逻辑思考,并具备平衡模型能力与效率的优化技术,其有效的数据机制保障了模型的可信及可用程度,其推理服务能广泛支持各类应用。文心X1 Turbo强化推理泛化能力,拓宽工具链应用生态,加强安全机制建设,构筑可信应用保障壁垒。
▲中国信通院可信AI大模型推理能力评估证书
结语:技术的价值最终体现在用户身上
在大会尾声环节,百度特别邀请一位16岁的大语言模型用户作为嘉宾出席。该用户结合自身经历,阐述了使用大语言模型对其生活产生的具体影响。
在人工智能技术发展初期,社会各界曾就其潜在影响展开讨论,主要关注点包括人工智能是否可能替代人类工作岗位,甚至引发对人类社会主导权的担忧。而此次受邀用户的分享,以个体视角呈现了人工智能技术对普通民众日常生活的实际改变。
当大模型学会像人类一样感知世界,像人类一样思考和行动并自我进化,技术进步便真正转化为普惠的社会红利。正如该用户所说:“技术真正的魅力不是惊艳谁,而是真正解决一个又一个真实的问题……AI的大门已经打开,就看你愿不愿意走进去。”
下一篇:利空突袭!突然,全线下调!