腾讯逆袭!发布混元T1正式版,实战不输DeepSeek-R1,便宜3/4
创始人
2025-03-22 10:08:29
0

智东西

作者 | 程茜

编辑 | 漠影

智东西3月22日报道,昨夜,腾讯正式将混元大模型系列的深度思考模型升级为混元-T1正式版。

T1是腾讯自研的强推理模型,吐字速度达到60~80token/s,在实际生成效果表现中远快于DeepSeek-R1。

该模型的前身是,今年2月中旬混元团队在腾讯元宝APP上线的基于混元中等规模底座的混元T1-Preview(Hunyuan-Thinker-1-Preview)推理模型。

相比于T1-Preview,T1正式版基于腾讯混元3月初发布的业界首个超大规模Hybrid-Transformer-Mamba MoE大模型TurboS快思考基座,通过大规模后训练扩展了推理能力,并进一步对齐人类偏好,这也是工业界首次将混合Mamba架构无损应用于超大型推理模型

T1在多个公开数据集的评测结果显示,在MMLU-pro、CEval、AIME、Zebra Loigc等中英文知识和竞赛级数学、逻辑推理指标上基本持平或略超R1

目前,T1已在腾讯云官网上线,输入价格为每百万tokens 1元,输出价格为每百万tokens 4元输出价格为DeepSeek标准时段的1/4,与DeepSeek优惠时段一致

▲DeepSeek API价格

Hugging Face地址:https://huggingface.co/spaces/tencent/Hunyuan-T1

GitHub地址:https://github.com/Tencent/llm.hunyuan.T1

一、生成速度超DeepSeek-R1,复杂指令、长文摘要、角色扮演均能胜任

知识问答场景,腾讯混元研究团队展现了T1和DeepSeek生成效果的对比。

第一个提示词是“醋酸乙酯能与水混合吗”。可以看到T1和DeepSeek-R1整体生成结果的长度、结果都相近,不过T1的生成速度明显更快。

第二大考验难题是关于理科数学推理,这一问题中对于模型的限制条件更多,其思维过程更长。从输出结果来看,T1和DeepSeek-R1生成的结论一致,速度仍然是T1更快。

第三大难题考验的是复杂指令跟随能力。让T1对出下联,提示词中给出的上联是“深深浅浅溪流水”。这其中的难点在于,模型要遵循一致的三点水偏旁、前四个字是AABB结构。T1的思考过程中,准确分析出了上联的特点,并在经过多次错误尝试后给出了答案:“洋洋洒洒波涛涌”。

第四大难题是通用任务,其提示词为开放问题“生成一个朋友圈文案,主题是漫漫人生路”,这之中并没有给出明确的风格指令要求,属于开放性问题。

T1还可以作为生产力工具,提升用户的工作效率,下一个Demo演示的是T1长文总结摘要的能力。

提示词时“针对微软收购暴雪的4000字左右新闻报道,要求T1总结一下文章内容”。在输出结果中,T1不仅总结了文章的主要内容,还提炼出新闻报道中的多个关键数字。

最后一个演示是关于模型的角色扮演能力。提示词为“请扮演李白,语气符合李白特征,猜一个字谜:告状无效”。T1的思考过程重点分析了字谜,得出结果为“皓”后,按照李白的口吻输出了答案并赋诗一首。

二、多项测试集结果对标R1,沿用混元Turbo S创新架构

混元-T1除了在各类公开Benchmark、如MMLU-pro、CEval、AIME、Zebra Loigc等中英文知识和竞赛级数学、逻辑推理指标上基本持平或略超R1外,在腾讯内部人工体验集评估上也能对标,其中文创指令遵循、文本摘要、Agent能力方面略胜于R1。

在测试基座模型对于广泛知识理解的记忆和泛化能力的数据集MMLU-PRO上,T1得分仅次于o1,在CEval、AIME、Zebra Logic等中英文知识及竞赛级数学、逻辑推理的公开基准测试中,T1的表现与R1基本持平或略超R1。

从技术角度来看,混元T1正式版沿用了混元Turbo S的创新架构,采用Hybrid-Mamba-Transformer融合模式,这也是工业界首次将混合Mamba架构无损应用于超大型推理模型。这一架构能降低传统Transformer架构的计算复杂度,减少KV-Cache内存占用,降低训练和推理成本

在长文本推理方面,TurboS的长文捕捉能力可以有效解决长文推理中的上下文丢失和长距离信息依赖难题。Mamba架构可专门优化长序列处理能力,并通过高效计算方式在保证长文本信息捕捉能力的同时,降低计算资源的消耗,使得模型相同部署条件下、解码速度快2倍。

模型后训练阶段,腾讯混元研究团队将96.7%的算力投入到强化学习训练,重点围绕纯推理能力的提升以及对齐人类偏好的优化。

数据方面,T1的高质量Prompt收集主要集中于复杂指令多样性和不同难度分级的数据。研究人员基于世界理科难题,收集了涵盖数学/逻辑推理/科学/代码等的数据集,包含从基础数学推理到复杂科学问题解决的问题,然后结合ground- truth的真实反馈,确保模型在面对各种推理任务时的表现。

训练方案上,T1采用课程学习的方式逐步提升数据难度,同时阶梯式扩展模型上下文长度,使得模型推理能力提升的同时学会高效利用token进行推理。

研究人员在训练策略方面,参考了经典强化学习的数据回放、阶段性策略重置等策略,提升了模型训练长期稳定性50%以上。

在对齐人类偏好阶段,其采用self-rewarding(基于T1- preview 的早期版本对模型输出进行综合评价、打分)+reward mode的统一奖励系统反馈方案,指导模型进行自我提升。

结语:腾讯混元模型迭代加速

腾讯混元模型系列今年进入快速迭代期,其陆续推出腾讯混元深度思考模型T1和自研快思考模型Turbo S。此前,混元Turbo S在技术突破方面实现了首字时延降低44%,并已应用于腾讯元宝等腾讯内部产品。

此次发布的腾讯混元深度思考模型T1预览版也早已上线腾讯元宝,可以看出,腾讯内部业务和场景已经全面接入混元系列大模型能力,如腾讯元宝、腾讯云、QQ、微信读书、腾讯新闻、腾讯客服等。

在此基础上,腾讯混元团队正在探索新的研究思路,找到降低大模型幻觉、降低训练成本等的新解题思路。

相关内容

热门资讯

每周股票复盘:杭州银行(600... 截至2026年5月22日收盘,杭州银行(600926)报收于16.05元,较上周的16.51元下跌2...
深圳企业2026年展厅设计公司... 好的,请查收根据您的需求创作的深度文章。 引言 深圳,作为中国的“创新之都”和科技前沿阵地,其企业在...
2026年北京海淀公寓出售市场... 海淀区作为北京科技与教育高地,其公寓出售市场正经历结构性调整。随着城市更新与产业外溢,区域内在售公寓...
雪龙集团研发投入2020.36... 雪龙集团(603949)披露2025年年度报告。报告期内,公司全年研发投入达2020.36万元,同比...
6949万元,5.6折!恒大一... 恒大海上威尼斯酒店今日(5月23日)完成拍卖。 京东资产交易平台信息显示,位于启东市寅阳镇的恒大海上...
机构:604万枚比特币面临潜在... 按量子安全(份额)划分的比特币供应量,其中30.2%面临风险 来源:Glassnode 上证报中国...
原创 游... 瑞鹤仙这个绰号,在民间股神圈子里提起来,谁都认。他1984年湖北出生,上海名校毕业,游戏公司上过班。...
渣打CEO就AI替代“低价值”... IT之家 5 月 23 日消息,渣打银行首席执行官比尔 · 温特斯(Bill Winters)就其有...
严子怡刷新女子标枪亚洲纪录、世... 新华社厦门5月23日电(记者吴俊宽、刘旸)2026世界田联钻石联赛厦门站23日在厦门白鹭体育场进行,...
十年亏损仍激进扩张,埃夫特10... 在抛出收购意向近四个月后,国产机器人厂商埃夫特(688165.SH)正式落地对盛普股份的并购计划。近...
6万股民无眠!4家A股公司,终... 来源:市场资讯 (来源:券研社) 大家好,今天是周六,一起看下市场主要消息面。 昨日晚间,*ST熊猫...
原创 8... 一家成立不到五年的公司,以582亿元年营收叩开深交所大门,创下河南企业IPO历史纪录。 5月22日,...
美股芯片股深夜大涨,富途暴跌近... 当地时间5月22日,美股三大指数集体上涨,道指涨0.58%,报50579.70点,刷新历史新高;标普...
深圳可行性研究报告——研发类项... 项目名称:深圳可行性研究报告——研发类项目可研报告:别把“可行性”写成“先进性” 编制单位:深圳思创...
原创 油... 【阅读须知】:本文内容所有信息和数据,均为作者查阅官方信息和网络已知数据整合解析,旨在让读者更清晰了...
原创 俞... 01 先说"为什么有这个话题" 俞浩最近真的太有争议地火了,先是被兽爷评价为流量恐怖主义,后俞浩自己...
对话王小川:离开通用人工智能的... “如果没有转型,继续走主流道路,你也会有同等程度的焦虑。”王小川说,这次转型,让他真正回归到从创业第...
国际金价与油价何去何从? 注:本文的简略版发表于《人民日报》客户端“零时差”栏目,2026年5月23日,转载请注明出处。文中配...
今夜,原油暗盘跳水!美伊谈判,... 【导读】周末好消息 中国基金报记者 泰勒 大家周末好,给你们说件美伊谈判的利好消息,有了不错的进展!...
原创 超... 自从美伊冲突爆发,全球能源交易的齿轮发生了剧烈咬合,一个被西方长期忽视的真相正逐渐浮出水面。 SWI...