字节跳动:2025年思考模型Seed-Thinking-v1.5技术报告
创始人
2025-08-22 19:39:47
0

今天分享的是:字节跳动:2025年思考模型Seed-Thinking-v1.5技术报告(英文版)

报告共计:19页

Seed1.5-Thinking技术报告总结

字节跳动推出的Seed1.5-Thinking是一款具备卓越推理能力的混合专家模型(MoE),其激活参数为200亿,总参数达2000亿。该模型在多个基准测试中表现优异,如AIME 2024获得86.7分,Codeforces取得55.0分,GPQA为77.3分,在STEM和编程领域展现出强大实力,同时在非推理任务上也有出色的泛化能力,相较于DeepSeek R1,胜率高出8%。

在模型开发方面,数据、强化学习(RL)算法和RL基础设施是三个关键要点。数据上,监督微调(SFT)依赖链式思维(CoT)数据,过多非CoT数据会降低模型探索能力;RL训练数据包含STEM问题、代码任务等四类,其中数学数据泛化能力强,能广泛提升各任务性能。

RL算法上,模型训练存在不稳定性,而团队研发的VAPO和DAPO框架分别针对演员-评论家及策略梯度范式,解决了这一问题,保障了训练的稳健性。

RL基础设施采用混合引擎架构, Streaming Rollout System(SRS)能缓解长响应生成中的滞后问题,结合多种并行机制和内存优化策略,提升了训练效率与可扩展性。

评估结果显示,Seed1.5-Thinking在数学推理的AIME 2024中与OpenAI的o3-mini-high持平,但在AIME 2025和BeyondAIME仍有差距;在科学领域GPQA接近o3水平;编程方面接近Gemini 2.5 Pro;逻辑推理的ARC-AGI上表现突出。人类评估中,其在非推理场景的整体胜率超DeepSeek R1 8.0%,更贴合人类偏好。

未来,团队计划探索更高效的强化学习方法,挑战更复杂任务,并研究通用奖励建模,以进一步提升模型智能边界。同时,还将公开BeyondAIME和Codeforces等内部基准,助力相关领域研究。

以下为报告节选内容

相关内容

热门资讯

贵阳银行招标结果:2026年贵... 证券之星消息,根据天眼查APP-财产线索数据整理,贵阳银行股份有限公司7月2日发布《2026年贵阳银...
世界杯第25日前瞻:巴西又遇苦... 北京时间7月6日,2026年美加墨世界杯进入第25个比赛日,世界杯1/8决赛今日迎来两场窒息对决。五...
美联储,重磅来袭! 重点关注 北京时间7月9日(周四),美联储将公布6月货币政策会议纪要,投资者将从中寻找有关美联储未来...
肌酸到底安全吗?科学解惑指南 引子场景 在校园健身房里,普通训练者小李常被同伴和家长问及肌酸的问题。他看到社媒上有两种极端声音:有...
原创 证... 证监会六箭齐发!3亿融资上限翻倍,A股公司迎新变局 7月3号晚上刚收盘,证监会就扔出个大消息。 再融...
自动续费的坑,用户得躲,平台得... 近日,北京市市场监管综合执法总队查处了一起电商平台利用“低价噱头+隐形捆绑”侵害消费者权益的案件,涉...
触底反弹!白酒指数周涨2.61... 每经记者:刘明涛 每经编辑:肖芮冬 在连跌4周后,Wind白酒指数于本周止跌,周涨2.61%,指数重...
原创 泽... 7月1日,泽连斯基在结束对爱尔兰的访问时,脸色异常凝重,行程也显得格外匆忙。他几乎是火急火燎地登上了...
光大证券:半导体与AI浪潮驱动... 每经AI快讯,7月5日,光大证券研报认为,国内氟化工领军企业正加速布局含氟新材料,聚焦打造第二成长曲...
第27批援赞比亚中国医疗队紧急... 赞比亚当地时间6月27日13时50分,历经近30小时的长途跋涉,第27批援赞比亚中国医疗队顺利抵达赞...
【银河金工马普凡】融资融券市场... 来源:中国银河证券研究 【报告导读】 1. 宏观流动性转向宽松,资产配置由货币转向债券。 2. 行业...
炸裂!一批公司大幅预增 7月5日晚间,一批上市公司公布业绩预告,东方盛虹、招商轮船、天山铝业、浙富控股、永鼎股份、奥来德等均...
百余款未来产品亮相副中心“全球... 人民网北京7月5日电 (记者李博)日前,第四届品创·全球品牌节iBrandi Festival202...
原创 1... 一、纳塔尔糖厂的机遇与全球糖业格局的变迁 (一)19世纪糖需求的爆发式增长 如今的德班,是南非印度...
原创 【... 2026年7月5日,农历五月二十一,星期天。进入周末,国内汽柴油调整暂停,2026年第14次调价,新...
白云电器再中标美国 8 台大型... (来源:电能革新) 从“首台突破”到“批量中标”,白云电器再次用实力说话! 继2025年成功交付美国...
加强数据立法正当其时 国家数据局印发的《2026年数字经济发展工作要点》提出,推进数字经济促进法立法进程,持续推进数据安全...
超百亿资金回流! 在近期的震荡调整行情中,资金借道ETF逆势布局。本周股票型ETF获得资金净流入超过110亿元。从资金...
上海银行招标结果:上海银行20... 证券之星消息,根据天眼查APP-财产线索数据整理,上海银行股份有限公司7月2日发布《上海银行2026...
天良医护对讲系统如何重塑病房高... 病房呼叫,还在“按铃响铃”两头跑?夜间信息遗漏、高峰响应慢,传统模式痛点凸显。与此同时,市场正在快速...