李飞飞团队“50美元”复现DeepSeek R1?真相是…...
创始人
2025-02-07 01:31:57
0

今日一则关于人工智能领域的新闻引发广泛关注。

据报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用,成功训练出了一个名为s1的人工智能推理模型。该模型在数学和编码能力测试中的表现,据称与OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。

这一消息无疑在AI界投下了一颗重磅炸弹,真相究竟如何?

《科创板日报》记者调查和采访业内人士后发现,s1模型的训练并非从零开始,而是基于阿里云通义千问(Qwen)模型进行监督微调。这意味着,s1模型的神奇“低成本”,是建立在已具备强大能力的开源基础模型之上。

通义模型的“基座”作用

根据李飞飞等人的研究论文,s1模型的训练仅使用了1000个样本数据。按照业内共识,这一数据量在AI训练中可谓微乎其微,通常不足以训练出一个具备推理能力的模型。

青年AI科学家、上海交通大学人工智能学院谢伟迪副教授告诉《科创板日报》记者,如果仔细研究斯坦福s1的论文会发现,s1模型的神奇是以通义千问模型为基座进行微调,这1000个样本训练的作用更像是“锦上添花”,而非“从零开始”。

国内某知名大模型公司CEO也向《科创板日报》记者表示:“从论文原文来看,所谓用50美元训练出新的具有推理能力的模型,实际上只是用从谷歌模型中提炼出来的1000个样本,然后对通义千问模型进行监督微调。这种微调的成本确实很低,但明显是站在既有领先模型的‘肩上’才能做到。

斯坦福s1论文原文也注明模型是以阿里通义千问模型为基础微调

谢伟迪指出,国内外还有其他团队也声称用极低的成本,训练出了具有推理能力的新模型。但一阅读其论文原文,就会发现它们无一例外都是基于通义模型作为基座进行的。

国外多位人工智能研究者也指出,不少的“新”模型都是建立通义模型基础上

以通义千问模型作为基座,确实可以用很少的样本数据就达到产生新的推理模型的效果,但如果换成其他基座模型,新模型能力却没有任何的提升。所以,能力真正神奇的是Qwen模型,而不是s1。” 谢伟迪说。

低成本训练大模型有局限,但也是方向

尽管s1模型的低成本训练在某种程度上展示了AI训练的潜力,但其局限性也不容忽视。

首先,这种低成本训练依赖于已有的强大基座模型,如阿里通义千问模型。如果没有这样的基座模型,低成本训练的效果将大打折扣。

其次,1000个样本数据的训练量在大多数情况下是不够的,尤其是在需要处理复杂任务的场景中。

此外,低成本训练的成功也引发了对AI模型知识产权和伦理问题的讨论。如果越来越多的研究依赖于已有的基座模型进行微调,那么这些基座模型的开发者是否应该获得相应的回报?如何确保AI技术的公平使用和共享?这些问题都需要业界进一步探讨和解决。

尽管s1模型的低成本训练引发了争议,但其背后的研究思路无疑为AI领域提供了新的思考方向。

武汉人工智能学院一位资深研究人员向《科创板日报》记者表示,如何在保证模型性能的前提下,降低训练成本,是AI研究的一个重要课题。未来,随着技术的进步和算法的优化,或许我们真的能够看到更多低成本、高性能的AI模型问世。

来源:科创板日报

相关内容

热门资讯

近九成账户收益率超过3%! 3... 近日,多家保险机构披露专属商业养老保险2025年结算利率。低利率环境下,这份专属养老保险“答卷”可谓...
海底捞创始人再出山,时隔四年张... 蓝鲸新闻1月13日讯(记者 郝妍)1月13日,海底捞国际控股有限公司发布公告称,苟轶群辞去CEO,张...
原创 雷... 1月11日,雷军转发网友微博“谁骂小米车主!小米车主所有霉运转嫁到他身上”引发争议。有网友说,雷总,...
破解福州餐饮造节困局,名匠——... “福州餐饮造节”早已不是一场简单的促销活动,而是一场考验餐饮品牌综合运营能力的“大考”。当各路商家扎...
Alphabet市值突破4万亿... 来源:环球市场播报 Alphabet周一市值突破4万亿美元,成为为数不多达到这一门槛的公司之一。投资...
高瓴押注,COMMUNE幻师要... 千亿规模酒馆赛道上,又一家头部玩家吹响了上市号角。 1月9日,餐酒吧品牌COMMUNE幻师的运营主体...
GEO概念大火!多家A股公司回... 【大河财立方消息】1月13日,A股AI应用板块逆势上涨,其细分概念——GEO(生成式引擎优化)表现活...
炒黄金平台的手续费一般是多少?... 金价在2025年延续了高位震荡并持续上行的态势,年初至今累计涨幅已超过15%,黄金市场迎来历史性时刻...
【财经早晚报】老干妈重回巅峰年... 今天值得关注的国内外新闻有: 1. 金饰克价涨至1432元 2. 2025年超1万家银行网点...
浙江台州女博士带队,创新药收入... 「IPO全观察」栏目聚焦首次公开募股公司,报道企业家创业经历与成功故事,剖析公司商业模式和经营业绩,...
卫龙董事长刘卫平入选“2025... 瑞财经 1月13日,由瑞财经推出的“2025年度食品行业十大杰出人物”榜单揭晓,卫龙董事长刘卫平入选...
【行情+直播】创业板冲高回落跌... 复盘天天论 最热板块 收! 周二,大A股三大指数集体调整,深成指跌超1%,创业板指冲高回落跌近2%。...
日本大同钢材代理-龙柏模具钢 ### 日本大同特殊钢:精密制造的优选材料 龙柏模具技术作为日本大同特殊钢的国内代理商,专注于提供高...
港华智慧能源荣获"年... 来源:格隆汇APP 在日前举行的"2025香港财富管理高峰论坛暨第十二届(港股100强)颁奖典礼"上...
陕西企业完成A轮融资 融资金额... 三秦都市报-三秦网讯(记者 任荣)1月12日,星环聚能顺利完成A轮融资,融资金额10亿元,再次刷新国...
*ST万方:公司股票将因触及财... 1月13日,*ST万方(000638.SZ)公告称,预计2025年度营业收入不足3亿元且扣非前后净利...
和讯投顾丁文杰:航天前排已触发... 兄弟们,航发今日涨幅5.88%,已触发严重异动,你觉得明天会怎么走?A直接停牌,b持续走强,c迎来分...
原创 美... 最近未来两年内最惨金融危机到巴菲特和罗杰斯说2026年要出大事。罗杰斯直接讲,可能是他这辈子见过最惨...
新三板创新层公司圣 博 润登龙... 每经讯,2026年1月13日,新三板创新层公司圣 博 润(430046,收盘价:0.41元)登上龙虎...