马斯克发布「最强大模型」超越 DeepSeek,成本高出 200 多倍
创始人
2025-02-18 16:05:51
0

「聪明得可怕」,这是马斯克预告 Grok 3 时的说法,以至于今天一大早,全网都在苦苦等待。

在全网蹲点发布会时,App Store 先一步更新了。而在发布会进行过程中,Grok 网页版也一度火到崩溃。

可以,看着很有信心的样子。

Grok 3 不是一个简单的产品迭代,在此之前,是马斯克大手笔建设的数据中心、豪气的显卡配置,采用最佳的预训练模型并继续使用强化学习进行训练,堪称「富养」出来的新一代。

要点提炼如下:

  • 美区账号已经可以更新,英区、欧洲 2.28 推出
  • 推出 SuperGrok 高级订阅计划,月费为 30 美元,年费为 300 美元,提供额外的推理和 DeepSearch 查询功能,包含了无限量的图像生成服务
Grok 3 推理能力领先 DeepSeek R1

在 Chatbot 竞技场之称的 LMSYS 盲测中,Grok 3 在代码、指令响应等各个方面排名第一。

作为诞生于 20 万张显卡的产物,Grok 3 断层级别的表现依旧证明了 Scaling Law 仍在生效。

相比于 DeepSeek 以低成本创造高收益,Grok 3 主打一个「大力出奇迹。」

这次,引入推理能力的 Grok 3 的重点在于更灵活地进行实时计算资源分配,在保证推理质量的同时,最聪明的使用计算资源。

曾经 Grok 2 的推理能力,就已经达到过当时的 SOTA 水平。在经过多次迭代之后,模型的泛化能力有大幅提升。Grok 3 在最新的 AIME 竞赛中则再次刷新了自己的记录。

不过,仅仅只是推理能力强显然是不够的,快、狠、准才能参与大模型内卷。发布会现场,工程团队展示了两个案例。

一个是请求生成一个从地球发射到火星并返回地球的 3D 动画代码,Grok 思考了 19 秒,详细描述了其思考过程,包括使用 Python 进行绘图,以及使用 NumPy 进行计算。

另一个则是试图让 Grok 将《俄罗斯方块》和《宝石迷阵》这两款游戏结合起来,创造出一个新的游戏。

很遗憾,Grok 一上来就遭遇了连续两次的翻车,连马斯克回头看了屏幕上糟糕的演示环节,也不免尴尬地发出了一句「oh man」。

不过,后续演示中,也端上了正常的案例(该不会准备好的 demo 吧)。

而一些幸运的网友已经玩上 Grok 3 了。

▲图片来自 X 网友 @jesselaunz

DeepSearch 登场,要革搜索引擎的命

作为这次更新的重磅产品,Grok 3 加持的 DeepSearch 号称是下一代搜索引擎。模型将自主像 agent 一样运作,并且理解用户提问背后的意图,省下在 Google 花的时间。

现场展示的环节里,工程师给 Grok 3 出了一道有趣的题:预测 NCAA 「疯狂三月」的胜负数,也就是所有层级里的比赛结果。

这是巴菲特在 2014 年发起的一个活动,赌注高达十亿美元,赌得就是让巴菲特破产。历史上无人成功,甚至无人接近,因为即使专家预测,前几轮后也会出现大量错误。

▲2023 年 NCAA 对阵图

当年这就是一个营销活动,毕竟赢下的概率之小,几乎是千千亿分之一的概率,基本等于不可能。把这个问题甩给Grok 3,不可谓不大胆。

返送的答案中,除了援引的材料,还做了结构化处理。开头介绍、背景知识、分析图表、总结陈词,相当完整。

检索的重点在于,如何交叉核实各个信息源。Grok 3 通过设计一个子任务面板来完成这个工作,用户可以自己实时监测正在进行的任务,从而保证答案是可用的、可靠的。

在这个基础上,agent 自主检索十分钟,抵掉自己摸索一小时,才是有效减少工作量。

最终 Grok 3 也给出了它认为的 2025 年 NCAA 冠军,三月还没来,让我们拭目以待它的「神预言」会不会成真。

至于 Grok 3 的体验方式,官方说了,X 的 Premium+ 订阅用户将率先体验,而其他高级功能则被纳入 xAI 推出的新计划——SuperGrok 中。

SuperGrok 的月费为 30 美元,年费为 300 美元,仅提供额外的推理和 DeepSearch 查询功能,还包含了无限量的图像生成服务。

贾维斯来了?还没完全来

就在昨晚,Shivon Zilis 路透了她和有 Grok 3 加持的人工智能助理 Ara 的对谈,并称这是生命中最意想不到的收获。

简直是徒增大家对语音模式的期待,马斯克在发布会召开前就已经宣布语音模式只会在一周内推出,这也意味着无缘演示环节。

不过,在现场直播环节,马斯克也表示这将是 Grok 最好的体验之一,在发布会的尾声,语音模型也放出了一个男声,听着倒是挺有人味的。

这一点点的路透,激起了极大的好奇,到了QA环节关于语音模式的提问涌上来。当然,还有现在必不可少的灵魂拷问:「开源否」我们节选了一部分

QA

问:Grok 语音模式什么时候推出;是基于文本转语音,还是能理解人类说话并直接回应的模型?

答:Grok 基本上会理解人类所说的话,将首先在一周内发布早期版本,后续将迅速进行迭代更新。

问:什么时候推出 Grok API?

答:将在接下来的几周内推出,包含推理模型和深度研究功能。

问:Grok 能记住互动的谈话内容吗?

答:正在努力开发这个功能,不过目前还没有完全完成。

问:是否还会开源 Grok 模型

答:当 Grok 3 成熟稳定之后,大概几个月将会开源 Grok 2。

问:做这个项目最困难的部分是什么?

答:最大的挑战是让整个模型在海量的 H100 上进行训练,并保持一致性

相关内容

热门资讯

紫光国微大宗交易成交697.1... 紫光国微1月22日大宗交易平台出现一笔成交,成交量8.20万股,成交金额697.16万元,大宗交易成...
原创 国... 2026 年 1 月 22 日,伦敦金现报 4834.68 美元 / 盎司,COMEX 期金盘中触及...
50岁少壮派John Tern... IT之家 1 月 23 日消息,彭博社昨日(1 月 22 日)发布博文,报道称苹果硬件工程主管约翰 ...
始祖鸟“金主”买下四川老字号泡... 调味品大省四川,有望迎来下一家上市公司。 1月20日,重庆市监局官网公示的经营者集中简易案件显示,方...
IBM企业智能体新平台助力AI... IBM推出了一项综合平台与咨询服务,旨在为企业内部激增的人工智能项目引入更强的协调性。 IBM企业优...
北京国丹医院刘云涛主任:白癜风... 白癜风的康复之路漫长且充满未知,许多患者因找不到正确的方向,在调理中走了不少弯路。而北京国丹医院的刘...
西贝贾国龙认错! “我认错,向顾客认错,向员工认错,也向我自己认错。”距离西贝预制菜风波已过去100余天,近日在接受媒...
俞敏洪开办退休俱乐部,新东方股... 1月22日,港股开盘,恒生指数高开0.62%,恒生科技指数涨0.85%。新东方(9901.HK)股价...
“在全球绿色转型过程中扮演关键... “在全球绿色转型过程中扮演关键角色” 世界经济论坛2026年年会正在瑞士达沃斯举行。世界经济论坛...
一幅画像背后的医患情:神外专家... 近日,航空总医院神经外一科主任韩宏彦团队收到一份特殊礼物——25岁患者亲手绘制的两幅医师画像。画作分...
钻石价格大跌 十年前1.8万元... “钻石恒久远”的神话正在褪色。全球钻石价格持续下跌,近日行业巨头戴比尔斯再度宣布降价。而十年时间,黄...
欠中国的钱,委内瑞拉不还了?美... 在全球瞩目的达沃斯世界经济论坛期间,美国财政部长贝森特毫无预兆地抛出了一记重磅炸弹:“中国已无法继续...
“分期商城”暗藏高息套现风险 ... [ 博通咨询首席分析师王蓬博表示,用户买完商品立刻能高价回收变现,这已经偏离了真实消费场景。从资金流...
实验室里的“健康侦察兵” 在郑州大学第二附属医院(以下简称郑大二附院),有这样一群“幕后英雄”。他们虽不直接面对患者,却掌握着...
欧洲天然气价格今年已涨超40%... 欧洲天然气基准价格自去年6月份以来首次突破每兆瓦时40欧元的关口,交易商正应对全球异常寒冷天气带来的...
原创 我... 前几天在朋友群里聊天,有个朋友突然冒出一句话,说他们家现在房子虽然有两套,但压力比没房的时候还大。我...
别再自己吓自己!乳腺结节≠乳腺... 太原龙城中医医院科普,在当今社会,越来越多的女性重视自身乳腺健康,不少人会定期进行乳腺检查。然而,当...
机构预计黄金、白银等贵金属价格... |2026年1月22日 星期四| NO.1中金公司:美日国债风暴,YCC箭在弦上 中金公司研报指出,...
原创 7... 2025年的GDP数据新鲜出炉啦!七大城市的表现真是让人眼前一亮,尤其是杭州、台州和泸州这几个亮点,...
图生视频工具在跨境电商中的应用... 图生视频工具是一种利用人工智能技术将静态图像转换为动态视频的软件,近年来随着跨境电商的快速发展,这类...