马斯克:Grok今日归来!
创始人
2026-02-26 17:18:04
0

编辑|Panda、杨文

马斯克又一次跳过了所有正式流程。没有官方博客,没有技术文档,甚至连宣传推文都把自家产品的名字给拼错了。但就在这种极其「马斯克」的氛围中,Grok 4.20 Beta 版悄无声息地正式上线并进行了更新。

正如马斯克之前说的那样,Grok 4.20 采用了某种快速学习机制,能够持续进化。18 号开始公测后能每周通过用户真实交互持续迭代,不再等下一次大版本更新。

对于当前版本的 Grok 4.20,xAI 给出的官方介绍是「4 Agents」,也就是说,与以往单一的 Grok 模型不同,4.20 版本内置了一个由 4 个智能体组成的团队,其会在应对复杂查询时自动选择启用。

根据之前内测用户放出的截图,这 4 个智能体有着各自专属的名称、设定和技能:

  • Grok:协调者,具有标志性的机智、诚实的个性;负责综合最终输出。
  • Harper:研究专家,实时进行事实核查、收集来源、验证信息。
  • Benjamin:逻辑 / 编程 / 数学专家,负责处理严谨的推理、验证和技术深度。
  • Lucas:创意达人,挑战假设,探索替代方案,减少群体思维。

这 4 个智能体会在内部进行讨论(用户通常可以看到实时的思考过程),达成共识,并提供统一、更高质量的响应。

这种方法可以大幅降低幻觉(X 用户 @NoahKingJr 称测试报告表明幻觉降低了约 65%),并能提高在工程、预测、战略和多步推理等难题上的可靠性。

不过需要说明的是,在机器之心最新的测试中,Grok 4.20 却没有使用 Lucas、Harper、Benjamin 这三个名字,而是使用了 Agent 1、Agent 2、Agent 3 等代号。

正如前文所言,目前 xAI 尚未发布相关博客和技术报告,也几乎没有官方评测数据流出。尽管如此,也已经有一些第三方评测机构放出了一些评测结果。

比如 Arena AI 发布了一份数据,经过 3992 位用户的评测,Grok 4.20 在评估搜索实时信息、外部知识和可靠引用的能力的 Search Arena 中目前排名第一,超过了 GPT-5.2、Gemini 3.0 Pro 等模型。

而在评估 LLM 在文本的通用性、语言精确性和文化背景方面的能力的 Text Arena 上,Grok 4.20 排名第 4。

下表展示了更多评测数据:

另外,Grok 4.2 在真实股票交易基准 Alpha Arena 中表现也非常亮眼,其中采用 Situational Awareness 策略的 Grok 4.20 更是以显著的胜率登顶排行榜。

下面展示了更具体的数据:

几个实测

看看 Grok 4.20 的表现如何

我们也对这个新版 Grok 4.20 进行了一番实测,首先来看看其搜索能力。正好目前关于 Grok 4.20 的消息不多,我们就提出了一个关于其自身的问题:

搜索网络上关于 Grok 4.20 的一切,将信息汇总成一份报告,涵盖其技术细节、基准指标等。

可以看到,因为这个任务比较简单,Grok 4.20 仅启用了默认的 Grok 智能体,不到一分钟就完成了任务,给出的报告中也纳入了一些前文没有提到的信息。整体而言,这是一份相当有用的报告,尤其是其得天独厚的 X 推文检索能力,更是可以成为辅助我们报道写作的利器。

再上一个难度更大的任务:编写一个演示日晷工作原理的动态 SVG。

这一次,Grok 4.20 的多智能体模式被成功唤起,也成功创建了一个效果还算不错的嵌入了 SVG 的网页:

还有网友直接让它用 three.js 制作一个 FPS 游戏,这个原型充分发挥了 Grok 4.2 高速精准的代码生成、实时工具集成、清晰的逻辑结构的优势。

它在一口气给出完整、可直接运行的文件这点上,比 Claude Code 和 Codex 明显更有优势 。

「确实又准又快,几乎不出错,所以能把脑子里刚冒出来的想法,迅速做成备忘录级别的原型,真的太爽了!」

接下来我们试了试 Grok 4.20 引以为傲的创作能力,让其为当前这篇文章建议标题并将其改成适合发小红书的风格。结果如下,大家可以看看它的小红书味道正吗?

最后,按照 Grok 系列一贯的传统,Grok 4.20 在毒舌怼人方面依然颇具天赋。正如马斯克分享的这条推文一样,当用户问 AI「你为何如此弱智」时,Claude 的回答一板一眼,而 Grok 4.20 直接来了一句「因为我在拉低智商配合你」。

相关内容

热门资讯

一季度业绩下跌,基金规模却从2... 2026年一季度,格林新兴产业混合基金上演了一场业绩与规模的冰火两重天戏码。该基金一季报显示,A类份...
603169、000909、6... 【导读】兰石重装、*ST数源、傲农生物、欢瑞世纪被证监会立案 中国基金报记者 忆山 4月22日,兰石...
10股筹码大幅集中! 今日(4月22日)市场主要指数集体低开后,快速转涨。 盘面上,光纤概念延续强势,杭电股份、永鼎股份、...
专家解读:这三大产业合计对上海... 来源:滚动播报 (来源:上观新闻) 今年是“十五五”起步之年,一季度开局表现对提振发展信心、稳定市...
国内首单隧道REIT正式上市,... 4月22日,由隧道股份作为发起人的“东方红隧道股份高速公路封闭式基础设施证券投资基金”在上海证券交易...
原创 兵... 在阅读此文前,为了方便您进行讨论和分享,麻烦您点击一下“关注”,可以给您带来不一样的参与感,感谢您的...
A股突发!4家公司被证监会立案 【大河财立方消息】4月22日晚,兰石重装、*ST数源、傲农生物、欢瑞世纪相继公告称,因涉嫌信息披露违...
蓝色光标一季度净利1.26亿元... 蓝色光标 视觉中国 资料图 国内营销龙头蓝色光标一季度净利润增超三成。 4月22日,北京蓝色光标数据...
AI鉴定评估独具化腐朽为神奇之... 我们天天用元宝、豆包的AI鉴定给收藏的艺术品资产进行鉴定。 我们的艺术品这么完美,怎么我们发现不了?...
固收+规模逼近2.9万亿,二级... 财联社4月22日讯(编辑 王蔚)在低利率环境成为新常态、居民财富再配置需求旺盛的背景下,兼具债券底仓...
被特朗普提名担任美联储主席,沃... 4月21日,美国总统特朗普提名的美联储主席人选凯文·沃什表示,他要捍卫美联储的独立性,并表示如果获得...
苹果新CEO是硬件出身,这对苹... 苹果公司新任CEO约翰·特努斯将于今年9月正式接掌公司。届时他需要面对诸多挑战,但毫无疑问,AI将是...
“被围困的6年”:北京限竞房陆... 每经记者:陈梦妤 每经编辑:陈柯名,杜宇 有人说,被限竞房围困了6年。 近一周,北京大兴区瀛海府一套...
原创 3... 4月20日,"万达电影"四个字从A股消失了。 公告很短,却意味着一个时代的句号。这家承载《唐人街探案...
2026春季糖酒会总结专题:春... 今天分享的是:2026春季糖酒会总结专题:春糖反馈理性,把握结构性机会 报告共计:14页 2026春...
原创 万... “万达改名了?”第一眼看到这条6热搜的时候,不少人都会有点懵。毕竟万达广场和王健林“一个亿小目标”的...
上市银行一季报营收或将超预期,... 4月20日,截至13:15,中证银行指数上涨0.82%。个股方面,宁波银行涨超3%,农业银行、工商银...
山水集团东北运营区召开4月份工... 来源:市场资讯 (来源:水泥网APP) 4月16日,山水集团东北运营区在赤峰公司召开4月份工作会议。...
广州顶豪汇悦台一豪宅流拍:评估... 4月17日,广州顶级豪宅小区悦汇台的一套法拍房流拍。 该套法拍房建筑面积308.69平方米,评估总价...
安徽润石置业何卫兵 :扎根县域... 在中国广袤的县域大地上,什么是真正的“好房子”?是不断攀升的建筑高度,还是不断升级的居住体验?有一群...