刚刚,马斯克突然发布 Grok 1.5 大模型,但除了这点都不如 GPT-4
创始人
2024-03-29 13:35:39
0

原标题:刚刚,马斯克突然发布 Grok 1.5 大模型,但除了这点都不如 GPT-4

就在刚刚,马斯克旗下的 xAI 团队突然发布了 Grok-1.5 大模型。

一周前,在众多质疑声中,马斯克如约开源了 GroK-1。今天发布的 Grok-1.5 则在推理和上下文理解能力上有了显著提升。

从基准测试结果来看,Grok-1.5 的能力迎来了巨大的飞跃,全然碾压了此前热门的开源模型 Mistral Large、Claude 2 等,即使面对「宿敌」GPT-4,也互有胜负。

附上博客原文链接:https://x.ai/blog/grok-1.5

Grok-1.5 在编码和数学领域任务处理能力上迈上了一个比较大的台阶。

从基准测试的结果来看,Grok-1.5 在 MATH 基准测试中取得了 50.6% 的得分,在 GSM8K 基准上,Grok-1.5 获得了 90% 的得分,这两个测试都涵盖了从基础算术到高级数学的广泛领域。

此外,Grok-1.5 在评估代码生成和解决问题能力的 HumanEval 基准测试中得分为 74.1%,超越了 GPT-4。

对此,xAI 团队核心成员也为 Grok-1.5 摇旗呐喊:「我们最新的推理能力升级。在从 Grok 1 版本升级到 1.5 版本的过程中,数学推理能力从 24 %提升至 50%。」

Grok-1.5 另一个比较大的升级是其上下文窗口扩展至 128K,飙升 16 倍,提升到了与 GPT-4 Turbo 相同的档次,能够处理相当于 300 页的文本,相当于可以塞进一部中篇小说。

看起来强得可怕

在处理的文本量大幅提升之余,Grok-1.5 的能力也没落下。在大海捞针(NIAH)的测试中,Grok-1.5 展现了强大的检索能力,瞧瞧这清一水的蓝色,看起来强得可怕。

据 xAI 官方介绍,Grok-1.5 建立在基于 JAX、Rust 和 Kubernetes 构建的自定义分布式训练框架之上。

在大型计算集群上训练 LLMs 时,确保训练作业的高可靠性和长时间的正常运行是一项主要挑战。xAI 团队的自定义训练协调器能够自动检测并排除训练过程中的问题节点。

此外,xAI 团队还优化了检查点创建、数据加载和训练作业重启流程,以减少任何故障导致的停机时间。

Grok-1.5 未来几天内将会向一部分群体开放,后续也将逐步向公众开放。

作为对比,开源的 Grok 1.0 是拥有 314B 参数的先进混合专家模型,也是截至目前参数量最大的开源大型语言模型,其规模相当于 Meta LlaMA 2 70B 的 4.4 倍。

根据 Apache 2.0 许可协议, 现在公众可以自由访问模型的权重和架构。以下是关于 Grok 1.0 的一些关键信息:

模型参数数量高达 314B

混合专家模型(MoE 架构)

每一个数据单元由 2 位专家处理

嵌入向量的维度为 6144

采用旋转式嵌入表示

在 MMLU、GSM8K 等一系列的基准测试中,Grok 1 的表现远胜于 LLaMA 2 70B,但和 Claude 2 以及 GPT-4 仍有不小的差距。

卧虎藏龙的 xAI

去年初,The Infomation 就曾报道马斯克正在积极「招兵买马」,意图筹建一个新的研究实验室,以推出 ChatGPT 的劲敌。

xAI 的官网曾详细介绍了拥有 12 名核心成员的初创团队。除了马斯克之外,其他 11 名成员的背景如下:

Igor Babuchkin:

人工智能研究者,在 DeepMind 和 OpenAI 工作时累积过丰富的经验。参与过 AlphaStar 项目(用 AI 在星际争霸上击败人类冠军)。

Manuel Kroiss:

软件工程师。曾在 Google 和 DeepMind 等科技巨头工作,在强化学习和人工智能领域作出过重要贡献。论文「Reverb: A Framework for Experience Replay」的联合作者。

Yuhuai(Tony)Wu :

人工智能研究者、计算机科学家。因其在 Google N2Formal 团队和一家秘密初创公司作为自动化数学家和形式推理方面的工作而闻名。

Christian Szegedy:

在深度学习、人工智能、计算机视觉、影像分析和形式推理方面拥有专业知识。曾就职于 Google, 担任研究科学家。拥有波恩大学应用数学博士学位。

Jimmy Ba:

多伦多大学助理教授。正在领导一项有关深度神经网络高效学习算法的开发研究。CIFAR-AI(加拿大高等研究院人工智能与社会项目)主席,2016 年 Facebook 机器学习研究生奖学金获得者。

Toby Pohlen:

曾任 DeepMind 研究工程师,在机器学习、强化学习领域拥有丰富经验。参与 AlphaStar League 和 Ape-X DQfD 等项目。以全班第一名的成绩毕业于德国亚琛工业大学计算机科学专业。

Ross Nordeen:

曾任特斯拉的技术项目经理,将帮助团队构造过滤器。

Kyle Kosic:

曾就职于 OpenAI 等 AI 公司。拥有丰富的机器学习、物理学和应用数学的学术背景。

Greg Yang:

曾就职于微软研究院,于 2018 年荣获摩根奖 (Morgan Prize) 荣誉奖。

Guodong Zhang:

机器学习和人工智能领域的研究者,曾就职于多伦多大学和矢量研究所(Vector Institute),因研究大语言模型的训练、调整、对齐而闻名,撰写过多篇相关领域的论文。他是 2022 年 Apple 博士奖学金,2020 年 Borealis 人工智能奖学金的获得者。

Zihang Dai:

曾任 Google 研究员,拥有清华大学和卡内基梅隆大学的学位,在百度美国分公司和蒙特利尔大学的 mILA 进行过研究实习。

当然,仅靠这 11 个核心成员就想推出 Grok AI 助手显然是不切实际的,所以 xAI 也同步开启了招人计划,招揽 AI 相关的技术人才加入。

现在,xAI 的技术团队也迎来了极速壮大,甚至光从名字的甄别上,你就能从中发现不少华人活跃的身影。

对于即将到来的 Grok-1.5 ,前 OpenAI 开发者关系主管直接在线点赞。

玩梗这种事,还是得看网友。

前不久,埃隆·马斯克在 X 发文称,本周晚些时候,Grok 将向 X 平台所有订阅高级服务的账户开放。

但这一次,比起免费的开放使用,我们更关心地是,Grok-1.5 短时间内还会开源吗?

相关内容

热门资讯

2026基金“中考”:AI算力... (来源:独角金融) 作者 | 刘银平 编辑 | 付影 2026年的日历刚翻过一半,公募基金行业就交...
芯问科技:以平台服务链接资源 ... 转自:新华财经 新华财经北京7月4日电(冯蕊)在3日于北京举办的2026全球数字经济大会第一届数字经...
逾百万股东,000725,热度... 近一周机构调研个股有170多只,京东方A调研机构数最多。 京东方A(000725)有238家机构调研...
2026年优质的美妆品牌股权融... 在国内经济转型升级的浪潮下,不少处于中后期发展阶段的大项目手握核心技术、拥有稳定营收基础,却在股权融...
一家BI公司,当下决定转型 “AI看起来很强,但它不懂宝洁的经营逻辑,所以不敢把它放进关键的决策流程。”这是宝洁CIO在今年3月...
家里老人看电视声音越开越大,原... 很多家里的长辈,慢慢都会出现这种情况:看电视音量调得特别高,跟他说话总要重复好几遍,有时候还会答非所...
“充电宝一哥”港股上市首日一度... 每经编辑|何小桃 7月2日,“充电宝一哥”安克创新(00668.HK)正式登陆港交所主板,完成A+H...
原创 6... 688809强一股份2025年上市首日持股至今累计收益,216%,年化100% 917字 688...
每周股票复盘:无锡银行(600... 截至2026年7月3日收盘,无锡银行(600908)报收于5.24元,较上周的5.17元上涨1.35...
燃油附加费,明起下调 据央视新闻消息,记者从国航、东航、南航等多家航司了解到,自2026年7月5日(含)起销售的国内航线客...
小儿髋关节发育不良超声筛查,守... 很多家长发现宝宝腿纹不对称、双腿长短不一、髋关节活动有弹响,会担心孩子髋关节发育有问题,但又怕拍 X...
财联社创投通:一级市场本周融资... 《科创板日报》7月4日讯 据财联社创投通数据显示,本周(6.27-7.3)国内统计口径内共发生140...
向实向新,我国民间投资活力持续... 民间投资对稳增长、稳就业、稳预期具有重要作用。记者日前在调研中了解到,随着存量政策和增量政策共同发力...
孩子这些行为,可能是多动症在“... 家有孩子的家长们,是不是常常会有这样的困惑:孩子活泼好动到底是天性使然,还是可能得了多动症呢?今天咱...
世界杯-乌纳希2球迪亚斯2助 ... 北京时间7月5日凌晨1时,2026世界杯首场1/8决赛打响,加拿大对阵摩洛哥,第21分钟,摩洛哥主力...
怎么判断南昌附近黄金回收机构是... 随着近年黄金价格波动频繁,不少南昌市民有闲置黄金变现的需求,很多市民在寻找附近黄金回收时会首先关注商...
上海电销专用卡服务相关企业情况... 电销类通讯产品行业背景 当前国内众多电销类企业日常运营中,高频外呼是核心业务场景之一,传统通讯产品容...
如何靠“断舍离式消费”过上更轻... 曾几何时,我也迷恋过买买买。 换季就剁手,节日必囤货,刷短视频看到“爆款推荐”立刻加购。 买得多,...
推出储架、提高额度、市价发行,... 在证监会主席吴清“预告”两周之后,再融资新规露出真容。 7月3日晚间,证监会宣布就完善上市公司再融资...
国家网信办就《互联网信息服务管... 国家互联网信息办公室就《互联网信息服务管理办法(修订草案征求意见稿)》再次公开征求意见。《办法(修订...