李飞飞团队“50美元”复现DeepSeek R1?真相是…...
创始人
2025-02-07 01:31:57
0

今日一则关于人工智能领域的新闻引发广泛关注。

据报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用,成功训练出了一个名为s1的人工智能推理模型。该模型在数学和编码能力测试中的表现,据称与OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。

这一消息无疑在AI界投下了一颗重磅炸弹,真相究竟如何?

《科创板日报》记者调查和采访业内人士后发现,s1模型的训练并非从零开始,而是基于阿里云通义千问(Qwen)模型进行监督微调。这意味着,s1模型的神奇“低成本”,是建立在已具备强大能力的开源基础模型之上。

通义模型的“基座”作用

根据李飞飞等人的研究论文,s1模型的训练仅使用了1000个样本数据。按照业内共识,这一数据量在AI训练中可谓微乎其微,通常不足以训练出一个具备推理能力的模型。

青年AI科学家、上海交通大学人工智能学院谢伟迪副教授告诉《科创板日报》记者,如果仔细研究斯坦福s1的论文会发现,s1模型的神奇是以通义千问模型为基座进行微调,这1000个样本训练的作用更像是“锦上添花”,而非“从零开始”。

国内某知名大模型公司CEO也向《科创板日报》记者表示:“从论文原文来看,所谓用50美元训练出新的具有推理能力的模型,实际上只是用从谷歌模型中提炼出来的1000个样本,然后对通义千问模型进行监督微调。这种微调的成本确实很低,但明显是站在既有领先模型的‘肩上’才能做到。

斯坦福s1论文原文也注明模型是以阿里通义千问模型为基础微调

谢伟迪指出,国内外还有其他团队也声称用极低的成本,训练出了具有推理能力的新模型。但一阅读其论文原文,就会发现它们无一例外都是基于通义模型作为基座进行的。

国外多位人工智能研究者也指出,不少的“新”模型都是建立通义模型基础上

以通义千问模型作为基座,确实可以用很少的样本数据就达到产生新的推理模型的效果,但如果换成其他基座模型,新模型能力却没有任何的提升。所以,能力真正神奇的是Qwen模型,而不是s1。” 谢伟迪说。

低成本训练大模型有局限,但也是方向

尽管s1模型的低成本训练在某种程度上展示了AI训练的潜力,但其局限性也不容忽视。

首先,这种低成本训练依赖于已有的强大基座模型,如阿里通义千问模型。如果没有这样的基座模型,低成本训练的效果将大打折扣。

其次,1000个样本数据的训练量在大多数情况下是不够的,尤其是在需要处理复杂任务的场景中。

此外,低成本训练的成功也引发了对AI模型知识产权和伦理问题的讨论。如果越来越多的研究依赖于已有的基座模型进行微调,那么这些基座模型的开发者是否应该获得相应的回报?如何确保AI技术的公平使用和共享?这些问题都需要业界进一步探讨和解决。

尽管s1模型的低成本训练引发了争议,但其背后的研究思路无疑为AI领域提供了新的思考方向。

武汉人工智能学院一位资深研究人员向《科创板日报》记者表示,如何在保证模型性能的前提下,降低训练成本,是AI研究的一个重要课题。未来,随着技术的进步和算法的优化,或许我们真的能够看到更多低成本、高性能的AI模型问世。

来源:科创板日报

相关内容

热门资讯

公司热点|盐津铺子实控人之一张... 8月6日,盐津铺子(002847)发布公告,张学文于8月5日通过集中竞价交易方式减持公司股份55.0...
三年前“一查就撤”,诚丰新材重... 导读:被抽中现场检查后马上选择“逃单”,这不得不让人怀疑该拟上市企业对自身“合规”的不自信。当然,如...
银行业“反内卷” 从广东率先打响攻坚战,到宁波57家银行商讨自律公约,从工行带头整治恶性竞争,到广发银行倡导长期主义,...
中消协发布上半年受理投诉分析,... 消费者下单购买空调,平台却连续7次修改并推迟预计送达时间,最终在未收到空调的情况下,订单状态已更新为...
淘宝大会员上线:打通饿了么飞猪... 淘宝大会员来了! 8月6日,淘宝上线了全新的大会员体系,打通饿了么、飞猪等阿里系资源,全面覆盖吃喝玩...
【园区动态】繁峙经开区:“风光... 今年以来,繁峙经济技术开发区以“风光储”一体化新模式,走出一条“资源高效转化—产业闭环发展—零碳经济...
远程工作会议录音总麻烦?3个智... 你是不是也遇到过这样的情况?远程开会时,一边听发言一边记笔记,手忙脚乱还漏重点;会后整理录音,两小时...
春雪食品预计上半年扭亏,72岁... 公告显示,春雪食品公司预计2025年半年度实现归属于母公司所有者的净利润1380万元到1600万元,...
中消协:上半年假冒、安全、虚假... 新京报讯(记者陈琳)8月6日,中消协发布2025年上半年全国消协组织受理投诉情况分析。上半年,全国消...
股市必读:中芯国际(68898... 截至2025年8月6日收盘,中芯国际(688981)报收于90.78元,上涨0.87%,换手率1.3...
600288大变化,徐翔母亲将... 曾经的“私募一哥”徐翔之母郑素贞所持大恒科技股份已全部完成拍卖,这家公司将迎来新的大股东,公司的控制...
大悦城拖后腿,中粮没能复制华润... 文 | 源媒汇,作者 | 利晋,编辑 | 苏淮 在其他上市公司积极推进“A+H”股布局时,大悦城控...
8月7日A股投资避雷针︱*ST... 民德电子实控人许香灿、董事易仰卿拟减持合计不超4%股份;千红制药大股东赵刚及其一致行动人拟减持合计不...
神秘人3.6亿接手徐翔母亲部分... 近日,前“私募一哥”徐翔母亲郑素贞所持大恒科技股权被神秘人接盘引发市场关注。 8月4日晚,大恒科技发...
美联储主席新人选浮出水面 随着美联储开启人事变动,美国总统特朗普表示,将在本周末前决定美联储理事空缺提名人选,并已将接替美联储...
银河日评|A股三大指数集体收涨... 盘面概览 数据来源:Wind Wind数据显示,全市场超3300只个股上涨。 行业表现 数据来源...
淘宝大会员上线:打通电商外卖与... 本报讯 (记者袁传玺)8月6日,淘宝上线了全新的大会员体系,打通饿了么、飞猪等阿里系资源,全面覆盖吃...
6520亿景顺长城基金“换帅”... 来源:独角金融 景顺长城基金管理有限公司(以下简称“景顺长城”)原董事长李进因任期届满于5月29日离...
原创 忽... 如果说买到烂尾楼是一场噩梦,那买海景房,可能是梦醒后第二场暴击。 你以为拥有了无敌海景,结果每天住进...
2025年中国百强城市排行榜:... 记者 田进 8月6日,华顿经济研究院发布的2025年中国百强城市排行榜(下称“排行榜”)显示,北京、...