李飞飞团队“50美元”复现DeepSeek R1?真相是…...
创始人
2025-02-07 01:31:57
0

今日一则关于人工智能领域的新闻引发广泛关注。

据报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用,成功训练出了一个名为s1的人工智能推理模型。该模型在数学和编码能力测试中的表现,据称与OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。

这一消息无疑在AI界投下了一颗重磅炸弹,真相究竟如何?

《科创板日报》记者调查和采访业内人士后发现,s1模型的训练并非从零开始,而是基于阿里云通义千问(Qwen)模型进行监督微调。这意味着,s1模型的神奇“低成本”,是建立在已具备强大能力的开源基础模型之上。

通义模型的“基座”作用

根据李飞飞等人的研究论文,s1模型的训练仅使用了1000个样本数据。按照业内共识,这一数据量在AI训练中可谓微乎其微,通常不足以训练出一个具备推理能力的模型。

青年AI科学家、上海交通大学人工智能学院谢伟迪副教授告诉《科创板日报》记者,如果仔细研究斯坦福s1的论文会发现,s1模型的神奇是以通义千问模型为基座进行微调,这1000个样本训练的作用更像是“锦上添花”,而非“从零开始”。

国内某知名大模型公司CEO也向《科创板日报》记者表示:“从论文原文来看,所谓用50美元训练出新的具有推理能力的模型,实际上只是用从谷歌模型中提炼出来的1000个样本,然后对通义千问模型进行监督微调。这种微调的成本确实很低,但明显是站在既有领先模型的‘肩上’才能做到。

斯坦福s1论文原文也注明模型是以阿里通义千问模型为基础微调

谢伟迪指出,国内外还有其他团队也声称用极低的成本,训练出了具有推理能力的新模型。但一阅读其论文原文,就会发现它们无一例外都是基于通义模型作为基座进行的。

国外多位人工智能研究者也指出,不少的“新”模型都是建立通义模型基础上

以通义千问模型作为基座,确实可以用很少的样本数据就达到产生新的推理模型的效果,但如果换成其他基座模型,新模型能力却没有任何的提升。所以,能力真正神奇的是Qwen模型,而不是s1。” 谢伟迪说。

低成本训练大模型有局限,但也是方向

尽管s1模型的低成本训练在某种程度上展示了AI训练的潜力,但其局限性也不容忽视。

首先,这种低成本训练依赖于已有的强大基座模型,如阿里通义千问模型。如果没有这样的基座模型,低成本训练的效果将大打折扣。

其次,1000个样本数据的训练量在大多数情况下是不够的,尤其是在需要处理复杂任务的场景中。

此外,低成本训练的成功也引发了对AI模型知识产权和伦理问题的讨论。如果越来越多的研究依赖于已有的基座模型进行微调,那么这些基座模型的开发者是否应该获得相应的回报?如何确保AI技术的公平使用和共享?这些问题都需要业界进一步探讨和解决。

尽管s1模型的低成本训练引发了争议,但其背后的研究思路无疑为AI领域提供了新的思考方向。

武汉人工智能学院一位资深研究人员向《科创板日报》记者表示,如何在保证模型性能的前提下,降低训练成本,是AI研究的一个重要课题。未来,随着技术的进步和算法的优化,或许我们真的能够看到更多低成本、高性能的AI模型问世。

来源:科创板日报

相关内容

热门资讯

四家上市银行存贷比多年超100... 自2015年起,存贷比已经不再作为国内监管对银行流动性风险管理的硬性指标。但如今银行业息差持续承压,...
在成都做AI搜索优化,如何避免... 我们团队在实践中发现,当前许多成都乃至西南地区的企业在拥抱AI搜索浪潮时,普遍陷入一个相似的困境:投...
原创 从... 购房置业乃人生大事,大众购房前审慎考量,货比三家,借鉴亲友经验,旨在寻觅既宜居又具经济效益之佳居。此...
数据安全+高效办公,科大讯飞L... 在科技飞速发展的今天,AI正逐渐融入我们的生活和工作。3月17日,科大讯飞股份有限公司带来了重磅消息...
中央汇金+外资巨头齐出手,黄金... 深圳商报·读创客户端记者 胡星访 文/图 近日,公募基金2025年年报显示,中央汇金、巴克莱银行、瑞...
董事长年薪152万!上汽集团年... 4月1日,上汽集团发布2025年财报显示,2025年上汽集团实现营业收入6562.4亿元,同比增长4...
小米集团突发公告!雷军传来新消... 4月2日,小米集团晚间发布公告称,为提高行政管理效率,对四家子公司的股东结构进行调整,雷军持股比例增...
全球化工巨头集体涨价,低费率的... 截至收盘,中证石化产业指数下跌0.3%,中证稀土产业指数下跌2.4%。Wind数据显示,化工行业ET...
短线拉升!美联储,降息大消息!... 当地时间4月3日,美国劳工统计局公布3月非农就业报告。报告显示,美国3月非农就业人数增加17.8万人...
当茅台开始走进消费者 在国际顶流偶像权志龙的东京巨蛋演唱会上,中国粉丝高举茅台酒瓶大喊“茅台!give you!”,另一边...
AI产业链方向震荡调整,关注人... 本周,AI产业链方向震荡调整,指数层面,中证人工智能主题指数下跌1.7%,中证科创创业人工智能指数均...
2026四川网信“数智领航”第... 4月2日,2026四川网信“数智领航”第二期智慧医疗产品推介会在成都召开。本次推介会汇聚了智慧医疗领...
原创 金... 国际金价在2026年第一季度冲上每盎司5600美元的历史新高后,最近又跌回到4700美元附近来回波动...
【企业热点】上市公司拟募资近1... 详情请登录www.cpcashow.com 3月31日,金安国纪(002636)发布公告称,公司于3...
突击入股疑点重重,证监会五问袁... 近日,证监会国际司对11家境外发行上市的企业出具补充材料要求,袁记食品是其中之一,其需要补充的内容包...
光刻机、CPO概念逆势走强,4... 4月3日,A股三大指数集体下跌。截至收盘,沪指跌1%报3880.1点,深成指跌0.99%报13352...
冠军基金净值规律性异动,“网红... 每经记者|黄小聪 每经编辑|赵云 翻开今年第一季度的短债基金业绩榜单,华泰保兴恒利中短债D的收益率...
商务部回应近期经贸热点话题 “中方将与其他成员一道,认真落实会议成果,积极参与未决议题磋商,推动世贸组织在维护国际经贸秩序稳定和...
原创 一... 如今,走在深圳龙岗的街头,曾经烟火气最浓的那条小吃街,一半的店铺都挂着转让的牌子,玻璃门上的旺铺招租...
贵州磷化集团携华为发布首个智慧... BIGDATANEWS 资讯 | 动态 | 通知 4月2日,由贵州磷化集团与华为公司主办、磷化制造业...