马斯克:Grok今日归来!
创始人
2026-02-26 17:18:04
0

编辑|Panda、杨文

马斯克又一次跳过了所有正式流程。没有官方博客,没有技术文档,甚至连宣传推文都把自家产品的名字给拼错了。但就在这种极其「马斯克」的氛围中,Grok 4.20 Beta 版悄无声息地正式上线并进行了更新。

正如马斯克之前说的那样,Grok 4.20 采用了某种快速学习机制,能够持续进化。18 号开始公测后能每周通过用户真实交互持续迭代,不再等下一次大版本更新。

对于当前版本的 Grok 4.20,xAI 给出的官方介绍是「4 Agents」,也就是说,与以往单一的 Grok 模型不同,4.20 版本内置了一个由 4 个智能体组成的团队,其会在应对复杂查询时自动选择启用。

根据之前内测用户放出的截图,这 4 个智能体有着各自专属的名称、设定和技能:

  • Grok:协调者,具有标志性的机智、诚实的个性;负责综合最终输出。
  • Harper:研究专家,实时进行事实核查、收集来源、验证信息。
  • Benjamin:逻辑 / 编程 / 数学专家,负责处理严谨的推理、验证和技术深度。
  • Lucas:创意达人,挑战假设,探索替代方案,减少群体思维。

这 4 个智能体会在内部进行讨论(用户通常可以看到实时的思考过程),达成共识,并提供统一、更高质量的响应。

这种方法可以大幅降低幻觉(X 用户 @NoahKingJr 称测试报告表明幻觉降低了约 65%),并能提高在工程、预测、战略和多步推理等难题上的可靠性。

不过需要说明的是,在机器之心最新的测试中,Grok 4.20 却没有使用 Lucas、Harper、Benjamin 这三个名字,而是使用了 Agent 1、Agent 2、Agent 3 等代号。

正如前文所言,目前 xAI 尚未发布相关博客和技术报告,也几乎没有官方评测数据流出。尽管如此,也已经有一些第三方评测机构放出了一些评测结果。

比如 Arena AI 发布了一份数据,经过 3992 位用户的评测,Grok 4.20 在评估搜索实时信息、外部知识和可靠引用的能力的 Search Arena 中目前排名第一,超过了 GPT-5.2、Gemini 3.0 Pro 等模型。

而在评估 LLM 在文本的通用性、语言精确性和文化背景方面的能力的 Text Arena 上,Grok 4.20 排名第 4。

下表展示了更多评测数据:

另外,Grok 4.2 在真实股票交易基准 Alpha Arena 中表现也非常亮眼,其中采用 Situational Awareness 策略的 Grok 4.20 更是以显著的胜率登顶排行榜。

下面展示了更具体的数据:

几个实测

看看 Grok 4.20 的表现如何

我们也对这个新版 Grok 4.20 进行了一番实测,首先来看看其搜索能力。正好目前关于 Grok 4.20 的消息不多,我们就提出了一个关于其自身的问题:

搜索网络上关于 Grok 4.20 的一切,将信息汇总成一份报告,涵盖其技术细节、基准指标等。

可以看到,因为这个任务比较简单,Grok 4.20 仅启用了默认的 Grok 智能体,不到一分钟就完成了任务,给出的报告中也纳入了一些前文没有提到的信息。整体而言,这是一份相当有用的报告,尤其是其得天独厚的 X 推文检索能力,更是可以成为辅助我们报道写作的利器。

再上一个难度更大的任务:编写一个演示日晷工作原理的动态 SVG。

这一次,Grok 4.20 的多智能体模式被成功唤起,也成功创建了一个效果还算不错的嵌入了 SVG 的网页:

还有网友直接让它用 three.js 制作一个 FPS 游戏,这个原型充分发挥了 Grok 4.2 高速精准的代码生成、实时工具集成、清晰的逻辑结构的优势。

它在一口气给出完整、可直接运行的文件这点上,比 Claude Code 和 Codex 明显更有优势 。

「确实又准又快,几乎不出错,所以能把脑子里刚冒出来的想法,迅速做成备忘录级别的原型,真的太爽了!」

接下来我们试了试 Grok 4.20 引以为傲的创作能力,让其为当前这篇文章建议标题并将其改成适合发小红书的风格。结果如下,大家可以看看它的小红书味道正吗?

最后,按照 Grok 系列一贯的传统,Grok 4.20 在毒舌怼人方面依然颇具天赋。正如马斯克分享的这条推文一样,当用户问 AI「你为何如此弱智」时,Claude 的回答一板一眼,而 Grok 4.20 直接来了一句「因为我在拉低智商配合你」。

相关内容

热门资讯

国际金价持续走弱 多家银行调整... 中新网北京6月25日电(记者 谢艺观)近期,国际金价持续下跌,失守4000美元心理关口,引发市场关注...
公正司法筑根基 丹法护航优营商... “法治是最好的营商环境,也是企业安心经营的底气,藏在每一次高效立案、每一场公正审判、每一回善意执行里...
“河以幸福”四川站系列采访报道... 文丨欧阳新华 蒲飞 王相川 在大多数中国人的地理记忆里,四川是长江的四川,是岷江的四川,是都江堰的四...
宁德时代 在柳州成立新能源公司 天眼查App显示,近日,时代骐骥新能源科技(柳州)有限公司成立,法定代表人为曾凡清,注册资本500万...
存储芯片+MCU芯片+AI芯片... A股收盘 【上证指数涨0.23% 存储芯片板块走高】四大股指今日集体收涨,上证指数报收4120.28...
“超级供应链”发力!这类机器人... 来源:市场资讯 (来源:央视财经) 在数智化浪潮的推动下,中国工业品采购市场正经历一场深刻的结构性变...
坐不住了?坚守茅台的前千亿基金... 【大河财立方 记者 孙凯杰】坐不住了?这或许是近期不少持仓基民对前“千亿基金经理”刘彦春的真实疑问。...
国际金价跌破4000美元后重返... 现货黄金价格在周三跌破4000美元关口后,周四再度短线拉升。 6月25日晚间,现货黄金短线拉升近50...
谷歌前CEO批评中国AI开源:... 今天,谷歌前CEO批评中国AI开源的一条上了热搜。视频中,谷歌前CEO埃里克·施密特在一个论坛对话环...
“60岁父亲背8个鸡蛋接考”的... 湖南60岁父亲背着8个土鸡蛋接高考儿子的视频,曾感动了无数网友。6月25日,全网牵挂的这位被接考少年...
中国白酒最坏时刻已经过去!白酒... 6月25日,A股市场白酒股集体拉升,其中, 酒鬼酒(000799.SZ)10CM涨停, 水井坊(60...
黄金避险神话破灭?“死叉”临近... 黄金的市场逻辑正在经历根本性转变。曾经支撑金价屡创新高的地缘政治溢价与避险叙事已悄然退场,美联储政策...
中钨在线:光伏钨丝和PCB微钻... 中钨在线6月25日消息称,钨市整体弱稳运行,原料端长单以外有效成交不多,贸易商议价重心承压,市场普遍...
原创 宁... 矿权性质能否变更留悬念。 作者 | 姚悦 编辑丨于婞 来源 | 野马财经 2024年底,锂电行业寒冬...
“龙大转债”倒计时不足一月,S... 图片来源:视觉中国 蓝鲸新闻6月25日讯(记者 代紫庭)6月25日,ST龙大(002726.SZ)披...
华数传媒在温州成立新公司 天眼查App显示,近日,温州华数传媒科技有限公司成立,法定代表人为潘劲勇,注册资本1000万人民币,...
锦艺新材创业板IPO获受理:A... 6月24日,深交所官网显示,苏州锦艺新材料科技股份有限公司(以下简称“锦艺新材”)创业板首次公开发行...
资本明星SK海力士赴美上市 来源:滚动播报 (来源:北京商报) 站上万亿美元市值后,韩国半导体龙头SK海力士已提交美国IPO申请...
上海未来产业基金出资2家GP 投资界6月25日消息,根据上海未来产业基金公示,投资决策委员会近期审议通过拟参与投资以下2只子基金:...
4300只个股下跌!A股三大指... 6月25日,A股三大指数开盘涨跌不一,早盘冲高回落后,又再度震荡拉升,随后集体翻红。黄白线分化明显,...