年费超 2 万！马斯克刚刚发布最贵 AI ，Grok 4 号称所有领域碾压博士_资讯

年费超 2 万！马斯克刚刚发布最贵 AI ，Grok 4 号称所有领域碾压博士

创始人

2025-07-10 18:17:16

0次

马斯克憋了快半年，终于把 Grok 4 端上了台面。

这一次，他的口气依旧不小。早在发布会前就放出狠话，声称 Grok 4 要「重写人类知识库」。等到了发布会上，马斯克再次强调 Grok 4 是目前世界上最聪明的 AI。

可以，熟悉的味道，熟悉的配方。

当然，马斯克夸自家产品这事儿，大家早就见怪不怪，但正如网友所调侃的那样，你可以嘲笑 xAI 员工在办公室帐篷里睡觉或者周末工作到凌晨 4:20，但也得承认，他们的确是当下发展速度最快的 AI 实验室之一。

至于 Grok 4 能不能配得上「最聪明 AI」的称号，还得看后续的实际体验。不过，有一点是跑不了的——它已经成了市面上最贵的 AI，年订阅价格最高可达到 3000 美元，定价策略可谓是相当不讲武德。

世界上最聪明的 AI？世界上最贵的 AI！

Grok 的训练路径分为两个核心阶段：预训练与强化学习。从 Grok 2 到 Grok 3，主要依赖预训练方式；而从 Grok 3 升级到 Grok 4，则大幅引入了以推理能力为核心的强化学习训练。

马斯克说得轻描淡写，但训练的动静却不小。

相比 Grok 2，Grok 4 的训练计算量提升了整整两个数量级，相当于增长了 100 倍——而且还在持续扩张。

马斯克表示，Grok 4 已在所有主要学科上超越博士水平。虽然它目前尚不具备发明新理论或提出原创技术的能力，但在他看来，这只是时间问题。

他甚至语言，今年底 Grok 可能就能发明新技术，明年几乎可以确定将具备发现新物理规律的能力。

当然，让 AI 接入现实世界，才是真正的关键。

他表示，Grok 与人形机器人 Optimus 的结合，将形成一个闭环推理系统——提出假设、验证假设、探索现实。这将开启一个智能大爆炸的时代，是人类历史上最令人激动的节点。

在产品形态上，Grok 4 是单智能体模型，而 Grok 4 Heavy 则是多智能体版本。

前者比较好理解，而后者则支持多个智能体并行思考，在推理过程中横向比对、纵向协同，调用更大规模的计算资源以完成更复杂、更精密的任务。

在现场演示中，Grok 4 Heavy 展示了多个场景能力。

比方说，让 Grok 4 Heavy 去预测今年 MLB 世界大赛（World Series）的冠军概率，它通过信息检索、数据建模、概率计算，评估洛杉矶道奇队的夺冠概率为 21.6%，并在 4.5 分钟内完整输出预测过程。

再比如，一个看似无厘头的任务：找出 xAI 团队里头像最奇怪的那一个。依托 X 平台的资料库，模型自动抓取并分析头像风格，最后锁定了联合创始人 Greg Yang。

有趣的是，虽然模型准确理解了「奇怪」这一主观概念，并能在同类中做出相对判断，但在一滑而过的演示中，我似乎看到了 Anthropic 员工 Jan Leike 的头像，看来准确率也有待提高。

除了推理和搜索，Grok 还能生成内容时间轴。

比如，根据 X 平台上的公开发帖，它能梳理出多个 AI 模型的基准测试成绩、厂商更新节奏以及社区反应。用户可以一目了然地看到 OpenAI 的分数表现、Gemini 的更新迭代，甚至是模型之间的微妙竞争态势。

换句话说，Grok 不是只会考试的书呆子，而是真正具备跨场景理解与执行能力的 AI。

目前，Grok 最大的短板依然集中在多模态理解能力，尤其是在图像理解和生成方面，能力仍有待加强。好消息是，下一阶段的基础模型训练已经在路上，预计几周内完成。

演示过程中，在测试「两个黑洞相撞过程」的可视化任务时，Grok 采用了简化的计算方式——使用后牛顿近似（Post-Newtonian approximation）替代完整的广义相对论框架。

尽管存在简化，模型依然准确地呈现了黑洞并合的关键物理阶段，包括「螺旋接近」、「合并」与「振铃阶段」，并能清晰说明所采用的近似方法。此外，它还调用了相关教材、公开搜索结果及实际物理常数进行推理支持，整体逻辑链条严谨、解释清晰。

就纸面参数而言，Grok 4 也交出了亮眼答卷。

Humanity’s Last Exam（人类最后的考试，简称：HLE，）覆盖了数学、物理、计算机、医学、人文社科等超过 100 个学科，共 2500 道闭卷题，测试难度极高，能够真实反映模型在通用知识和复杂推理上的综合表现。

根据 xAI 数据，Grok 4 在不使用任何工具的情况下，得分为 25.4%，超过了 Google Gemini 2.5 Pro 的 21.6% 和 OpenAI o3（高配版）的 21%。

而在使用工具的情况下，Grok 4 Heavy 的得分达到 44.4%，远高于使用工具后 Gemini 2.5 Pro 的 26.9%。从整体趋势来看，Grok 4 在扩展训练资源的同时，通过引入工具使用和链式思维，不仅提升了复杂任务的处理能力，也逐步缩小了模型智能与通用认知之间的差距。

非营利组织 Arc Prize 也指出，Grok 在其 ARC-AGI-2 测试中创下新纪录。这是一项视觉推理类基准测试，AI 需识别图像中的模式。Grok 的得分为 16.2%，几乎是当前排名第二的 Claude Opus 4 的两倍。

面对一些常规的基准测试中，Grok 4 Heavy 的分数几乎也快「刷满」分数。在博士级难度的问题集 GBQA 中，尽管整体难度略低于 HLE，Grok 4 Heavy 依然取得了满分成绩，展现出极强的推理与理解能力。

不仅如此，在多项编程相关测试中，Grok 4 Heavy 的表现同样抢眼。无论是 Live Coding、HMMT（麻省理工数学竞赛）还是 USAMO（美国数学奥林匹克），它都远超当前排名第二的模型，技术优势相当明显。

另外，知名分析机构 Artificial Analysis 通过对多款主流大模型在 7 个推理相关基准（MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME、MATH-500）上的综合表现进行评估。

数据显示，Grok 4 位列第一，得分为 73，是目前推理能力综合得分最高的模型。紧随其后的则是 o3-pro（估算值）71 分。

马斯克也强调：

「未来 Grok 将几乎在所有考试中答对每一个问题。而当它答不出某个问题时，它会指出题目的错误之处，或者指出问题含糊不清的地方，并给出不同情境下可能的答案。到那时，传统考试将失去意义。AI 唯一的检验标准将是现实世界：它是否能发明有用的技术，是否能推动科学的突破。所以 HLE 这类测试题库必须尽快更新，因为以当前的 AI 进展速度，它们很快就会过时。」

截至发稿前，Grok 4 和 Grok 4 Heavy 目前均已陆续上线。

目前，Grok 4 和 Grok 4 Heavy 已全面上线。用户可以通过订阅访问，不过，订阅价格就有点「不讲武德」，最高可去到 3000 美元/年档位，成了不少用户吐槽的焦点。

这么一比，OpenAI 、Anthropic 以及 Perplexity 的 200 刀/月套餐都显得实惠许多。

值得一提的是，发布后不久就有网友表示，Grok-4 与 Grok-4-Heavy 模型已经被成功「越狱」。越狱后的能力极其危险，可绕过安全护栏，输出敏感或非法信息，比如化学武器合成步骤、《星球大战1》的完整剧本（涉嫌版权）、甚至勒索病毒（恶意代码）等。

不只会说话，Grok Voice 还有了「灵魂」

除了更强的推理能力，更聪明，Grok 4 这次也在「更像人」这件事上，迈出了一大步。

跟我们熟悉的语音助手不同，xAI 全新语音助手「Eve」不只是能答话，它能表达情绪、有语调变化，甚至还能现场「唱歌」。

在直播现场的演示上，它用一口优雅的英音，唱了一首即兴创作的「Diet Coke 咏叹调」，「O Diet Coke, thou elixir divine…」听起来真的不像是 AI，像是伦敦剧场里的舞台演员在表演。

这次语音模型一共上线了五种声音，包括直播开场的「电影一般的预告男声」Sal，以及支持低延迟、自然停顿、情绪起伏等能力的 Eve。

现场还安排了一段和 ChatGPT Voice 的对比演示，两者轮流复述数字。ChatGPT 时不时「抢答」，有点像没听清就硬接话的同学。而 Grok 的表现更流畅、更贴近人类说话习惯，而且不会打断用户说话。

发布会上提到，自语音模型上线以来，Grok Voice 的端到端延迟缩短了两倍，活跃用户也增长了 10 倍。Grok Voice 正在迅速发展。

马斯克：让 Grok 去开一百万个自动售货机赚钱

几个 Grok 4 API 的应用场景让我印象非常深刻。

比如，在一项自动售货机商业模拟 Vending-Bench中，Grok 被要求自主完成：供应商协商、库存管理、定价策略，连续完成并长期保持盈利。

▲注：Vending-Bench 是一个专门设计用于测试基于 LLM 的代理，在管理一个简单但长期运行的业务场景中的能力：运营一台自动售货机。

测试结果显示，Grok 4 不仅登顶排行榜，而且它所获得的净资产是其他模型的两倍。连马斯克都开始调侃说：「以后买显卡的钱，可以让 Grok 去部署运营一百万个自动售卖机赚回来」。

在科研领域，Grok 4 已被用于 CRISPR 基因研究和胸片 X 光分析。它能在几秒钟内读完几百万条实验记录和日志，自动筛出最有可能成功的假设。

此外，像是金融领域、游戏开发等项目，都可以通过 xAI API 来使用 Grok 4 来实现。发布会上特别提到了一个游戏设计师，他在 xAI 发布了 Grok 4 预览 API 后，就立刻参与测试。然后，他花了短短 4 小时就做出了一个第一人称射击游戏。

Grok 4 不是终点。发布会最后预告了接下来的路线图，每一项都非常值得期待。

代码模型：这次竟然没有发布 Grok Code，不过 xAI 提到正在训练了，一个「又快又聪明」的代码模型将会在几周内上线。
多模态能力：Grok 4 在图像理解上表现依旧是有限，团队也说正在以更大规模训练下一个版本，预计会在图像、视频和音频理解上迎来质变，到时 Grok 将能「像人类一样看世界」。
视频生成：xAI 说将使用大规模的算力资源，进行视频生成模型的训练。他们的最终目标是做到图生视频，生成可交互的「无尽视频流」，让用户能边看边参与剧情走向。

可能有不少朋友已经发现，这次发布会还有两个熟悉的华人面孔。他们正是 xAI 的联合创始人——吉米·巴（Jimmy Ba）和吴宇怀（Yuhuai Wu）。

其中，吴宇怀（Yuhuai Wu）本科以满绩点毕业于加拿大纽布伦斯威克大学，并在 2021 年获得多伦多大学机器学习博士学位，期间曾师从「深度学习之父」杰弗里·辛顿。

博士阶段，他还曾在 Google DeepMind 和 OpenAI 实习，毕业后在 Google 任职，并在斯坦福大学从事博士后研究。

吴宇怀的研究重点是打造具备强推理能力的人工智能系统，先后主导或参与了自训练推理模型 STAR、语言模型 Minerva 以及定理证明器 Alpha Geometry 等项目，并在《Nature》等顶刊上发表论文，推动 AI 在数学推理领域实现突破。

▲ 吴宇怀（左二）和吉米·巴（左三）

坐在他身旁的吉米·巴（Jimmy Ba）则是多伦多大学计算机科学系的助理教授，也是吴宇怀博士时期的导师之一。

他同样出身于辛顿门下，是深度学习训练优化领域的关键人物。

最为人熟知的，是他与合作者共同提出了 Adam Optimizer（自适应矩估计优化器）——如今几乎成为深度神经网络训练的默认算法。可以说，他的博士论文为现代 AI 训练机制奠定了坚实理论基础。

不得不说，Gork 4 的到来适逢其时。

前代 Grok 3 的热度来得猛，退得也快。

根据知名市场分析机构 SimilarWeb 发布的截至 5 月 9 日的《2025年全球生成式AI行业趋势报告》，Grok 从三月流量暴涨超 100 万倍，到五月增幅跌回 5200%。

相比前代仓促上线、草草交卷的节奏，这次的 Grok 4 明显放慢了脚步，在产品打磨上也更下功夫。归根结底，马斯克的光环可以帮 Grok 带来第一波流量，但能不能留下用户，还得靠模型本身的硬实力。

只不过，我没记错的话，马斯克当初在 Grok 3 发布时，还信誓旦旦说要把 Grok 2 开源。眼看五个月过去了，这事儿却毫无动静，这次发布会上也没再提半句。

老马啊，可不能宽于律己，严以待人呀。

作者：张子豪、莫崇宇

上一篇：2025半程赛收官，富国基金权益、固收、量化全线领跑！

下一篇：机构抢滩“反内卷”研判，光伏、汽车、电商谁将率先受益？

年费超 2 万！马斯克刚刚发布最贵 AI ，Grok 4 号称所有领域碾压博士

相关内容

热门资讯