李飞飞团队“50美元”复现DeepSeek R1?真相是…...
创始人
2025-02-07 01:31:57
0

今日一则关于人工智能领域的新闻引发广泛关注。

据报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用,成功训练出了一个名为s1的人工智能推理模型。该模型在数学和编码能力测试中的表现,据称与OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。

这一消息无疑在AI界投下了一颗重磅炸弹,真相究竟如何?

《科创板日报》记者调查和采访业内人士后发现,s1模型的训练并非从零开始,而是基于阿里云通义千问(Qwen)模型进行监督微调。这意味着,s1模型的神奇“低成本”,是建立在已具备强大能力的开源基础模型之上。

通义模型的“基座”作用

根据李飞飞等人的研究论文,s1模型的训练仅使用了1000个样本数据。按照业内共识,这一数据量在AI训练中可谓微乎其微,通常不足以训练出一个具备推理能力的模型。

青年AI科学家、上海交通大学人工智能学院谢伟迪副教授告诉《科创板日报》记者,如果仔细研究斯坦福s1的论文会发现,s1模型的神奇是以通义千问模型为基座进行微调,这1000个样本训练的作用更像是“锦上添花”,而非“从零开始”。

国内某知名大模型公司CEO也向《科创板日报》记者表示:“从论文原文来看,所谓用50美元训练出新的具有推理能力的模型,实际上只是用从谷歌模型中提炼出来的1000个样本,然后对通义千问模型进行监督微调。这种微调的成本确实很低,但明显是站在既有领先模型的‘肩上’才能做到。

斯坦福s1论文原文也注明模型是以阿里通义千问模型为基础微调

谢伟迪指出,国内外还有其他团队也声称用极低的成本,训练出了具有推理能力的新模型。但一阅读其论文原文,就会发现它们无一例外都是基于通义模型作为基座进行的。

国外多位人工智能研究者也指出,不少的“新”模型都是建立通义模型基础上

以通义千问模型作为基座,确实可以用很少的样本数据就达到产生新的推理模型的效果,但如果换成其他基座模型,新模型能力却没有任何的提升。所以,能力真正神奇的是Qwen模型,而不是s1。” 谢伟迪说。

低成本训练大模型有局限,但也是方向

尽管s1模型的低成本训练在某种程度上展示了AI训练的潜力,但其局限性也不容忽视。

首先,这种低成本训练依赖于已有的强大基座模型,如阿里通义千问模型。如果没有这样的基座模型,低成本训练的效果将大打折扣。

其次,1000个样本数据的训练量在大多数情况下是不够的,尤其是在需要处理复杂任务的场景中。

此外,低成本训练的成功也引发了对AI模型知识产权和伦理问题的讨论。如果越来越多的研究依赖于已有的基座模型进行微调,那么这些基座模型的开发者是否应该获得相应的回报?如何确保AI技术的公平使用和共享?这些问题都需要业界进一步探讨和解决。

尽管s1模型的低成本训练引发了争议,但其背后的研究思路无疑为AI领域提供了新的思考方向。

武汉人工智能学院一位资深研究人员向《科创板日报》记者表示,如何在保证模型性能的前提下,降低训练成本,是AI研究的一个重要课题。未来,随着技术的进步和算法的优化,或许我们真的能够看到更多低成本、高性能的AI模型问世。

来源:科创板日报

相关内容

热门资讯

每周股票复盘:杭州银行(600... 截至2026年5月22日收盘,杭州银行(600926)报收于16.05元,较上周的16.51元下跌2...
深圳企业2026年展厅设计公司... 好的,请查收根据您的需求创作的深度文章。 引言 深圳,作为中国的“创新之都”和科技前沿阵地,其企业在...
2026年北京海淀公寓出售市场... 海淀区作为北京科技与教育高地,其公寓出售市场正经历结构性调整。随着城市更新与产业外溢,区域内在售公寓...
雪龙集团研发投入2020.36... 雪龙集团(603949)披露2025年年度报告。报告期内,公司全年研发投入达2020.36万元,同比...
6949万元,5.6折!恒大一... 恒大海上威尼斯酒店今日(5月23日)完成拍卖。 京东资产交易平台信息显示,位于启东市寅阳镇的恒大海上...
机构:604万枚比特币面临潜在... 按量子安全(份额)划分的比特币供应量,其中30.2%面临风险 来源:Glassnode 上证报中国...
原创 游... 瑞鹤仙这个绰号,在民间股神圈子里提起来,谁都认。他1984年湖北出生,上海名校毕业,游戏公司上过班。...
渣打CEO就AI替代“低价值”... IT之家 5 月 23 日消息,渣打银行首席执行官比尔 · 温特斯(Bill Winters)就其有...
严子怡刷新女子标枪亚洲纪录、世... 新华社厦门5月23日电(记者吴俊宽、刘旸)2026世界田联钻石联赛厦门站23日在厦门白鹭体育场进行,...
十年亏损仍激进扩张,埃夫特10... 在抛出收购意向近四个月后,国产机器人厂商埃夫特(688165.SH)正式落地对盛普股份的并购计划。近...
6万股民无眠!4家A股公司,终... 来源:市场资讯 (来源:券研社) 大家好,今天是周六,一起看下市场主要消息面。 昨日晚间,*ST熊猫...
原创 8... 一家成立不到五年的公司,以582亿元年营收叩开深交所大门,创下河南企业IPO历史纪录。 5月22日,...
美股芯片股深夜大涨,富途暴跌近... 当地时间5月22日,美股三大指数集体上涨,道指涨0.58%,报50579.70点,刷新历史新高;标普...
深圳可行性研究报告——研发类项... 项目名称:深圳可行性研究报告——研发类项目可研报告:别把“可行性”写成“先进性” 编制单位:深圳思创...
原创 油... 【阅读须知】:本文内容所有信息和数据,均为作者查阅官方信息和网络已知数据整合解析,旨在让读者更清晰了...
原创 俞... 01 先说"为什么有这个话题" 俞浩最近真的太有争议地火了,先是被兽爷评价为流量恐怖主义,后俞浩自己...
对话王小川:离开通用人工智能的... “如果没有转型,继续走主流道路,你也会有同等程度的焦虑。”王小川说,这次转型,让他真正回归到从创业第...
国际金价与油价何去何从? 注:本文的简略版发表于《人民日报》客户端“零时差”栏目,2026年5月23日,转载请注明出处。文中配...
今夜,原油暗盘跳水!美伊谈判,... 【导读】周末好消息 中国基金报记者 泰勒 大家周末好,给你们说件美伊谈判的利好消息,有了不错的进展!...
原创 超... 自从美伊冲突爆发,全球能源交易的齿轮发生了剧烈咬合,一个被西方长期忽视的真相正逐渐浮出水面。 SWI...