马斯克大模型Grok1.5来了:推理能力大升级,支持128k上下文
创始人
2024-03-29 15:16:22
0

原标题:马斯克大模型Grok1.5来了:推理能力大升级,支持128k上下文

机器之心报道

编辑:泽南

马斯克搞大模型,速度也奇快。

Grok 1 开源才刚有 10 天,Grok 1.5 就来了。

本周五早上,马斯克旗下的人工智能公司 xAI 正式推出了 Gork 大模型的最新版本 Grok-1.5。新一代模型实现了长上下文理解和高级推理能力,计划将在未来几天内向早期测试人员和 X 平台(前 Twitter)上的现有 Grok 用户提供。

上周一,马斯克刚刚开源了 3140 亿参数的混合专家(MoE)模型 Grok-1。通过开源 Grok-1 的模型权重和网络架构,Gork 项目已展示了 xAI 截至去年 11 月所取得的进展。在最新模型 Grok-1.5 中,Gork 又有了进一步提高。

能力与推理

Grok-1.5 最明显的改进之一是其在代码和数学相关任务中的性能。在 xAI 的测试中,Grok-1.5 在 MATH 基准上取得了 50.6% 的成绩,在 GSM8K 基准上取得了 90% 的成绩,这两个数学基准涵盖了广泛的小学到高中的竞赛问题。

此外,它在评估代码生成和解决问题能力的 HumanEval 基准测试中得分为 74.1%。

还记得昨天 Databricks 开源的通用大模型 DBRX 吗?当时的对比图表如下所示,看起来新版本 Grok 的提升是显著的。

就是不知这个大幅升级的 1.5 版会在什么时候开源?

长上下文理解

Grok-1.5 中的另一个重要升级是在其上下文窗口内可以处理多达 128K token 的长上下文。这使得 Grok 的容量增加到之前上下文长度的 16 倍,从而能够利用更长文档中的信息。

此外,该模型可以处理更长、更复杂的提示(prompt),同时在上下文窗口扩展时仍然能保持其指令跟踪能力。在大海捞针(NIAH)评估中,Grok-1.5 展示了强大的检索能力,可以在长度高达 128K token 的上下文中嵌入文本,实现完美的检索结果。

训练 Grok-1.5 的基础设施

xAI 进一步介绍了用于训练模型的算力设施。在大规模 GPU 集群上运行的先进大型语言模型(LLM)研究需要强大而灵活的基础设施。Grok-1.5 构建在基于 JAX、Rust 和 Kubernetes 的自定义分布式训练框架之上。该训练堆栈允许开发团队能够以最小的精力构建想法原型并大规模训练新架构。

在大型计算集群上训练 LLM 的主要挑战是最大限度提高训练作业的可靠性和正常运行时间。xAI 提出的自定义训练协调器可确保自动检测到有问题的节点,并将其从训练作业中剔除。工程师还优化了检查点、数据加载和训练作业重新启动等问题,以最大限度地减少发生故障时的停机时间。

展望

为了寻求替代微软支持的 OpenAI 和 Google 大模型的解决方案,马斯克去年推推动了 AI 创业公司 xAI,以创建他所说的「最大程度寻求真相的人工智能」 。去年 12 月,这家初创公司为 X 的 Premium+ 订阅者推出了 Grok。

xAI 表示,Grok-1.5 很快就会向早期测试者开放,其团队将继续改进 Grok。随着新版本推向公众,在未来几天 X 上的大模型将陆续推出一些新功能。

参考内容:

https://x.ai/blog/grok-1.5

https://www.reuters.com/technology/musks-xai-launch-improved-version-chatbot-2024-03-29/

相关内容

热门资讯

2026基金“中考”:AI算力... (来源:独角金融) 作者 | 刘银平 编辑 | 付影 2026年的日历刚翻过一半,公募基金行业就交...
芯问科技:以平台服务链接资源 ... 转自:新华财经 新华财经北京7月4日电(冯蕊)在3日于北京举办的2026全球数字经济大会第一届数字经...
逾百万股东,000725,热度... 近一周机构调研个股有170多只,京东方A调研机构数最多。 京东方A(000725)有238家机构调研...
2026年优质的美妆品牌股权融... 在国内经济转型升级的浪潮下,不少处于中后期发展阶段的大项目手握核心技术、拥有稳定营收基础,却在股权融...
一家BI公司,当下决定转型 “AI看起来很强,但它不懂宝洁的经营逻辑,所以不敢把它放进关键的决策流程。”这是宝洁CIO在今年3月...
家里老人看电视声音越开越大,原... 很多家里的长辈,慢慢都会出现这种情况:看电视音量调得特别高,跟他说话总要重复好几遍,有时候还会答非所...
“充电宝一哥”港股上市首日一度... 每经编辑|何小桃 7月2日,“充电宝一哥”安克创新(00668.HK)正式登陆港交所主板,完成A+H...
原创 6... 688809强一股份2025年上市首日持股至今累计收益,216%,年化100% 917字 688...
每周股票复盘:无锡银行(600... 截至2026年7月3日收盘,无锡银行(600908)报收于5.24元,较上周的5.17元上涨1.35...
燃油附加费,明起下调 据央视新闻消息,记者从国航、东航、南航等多家航司了解到,自2026年7月5日(含)起销售的国内航线客...
小儿髋关节发育不良超声筛查,守... 很多家长发现宝宝腿纹不对称、双腿长短不一、髋关节活动有弹响,会担心孩子髋关节发育有问题,但又怕拍 X...
财联社创投通:一级市场本周融资... 《科创板日报》7月4日讯 据财联社创投通数据显示,本周(6.27-7.3)国内统计口径内共发生140...
向实向新,我国民间投资活力持续... 民间投资对稳增长、稳就业、稳预期具有重要作用。记者日前在调研中了解到,随着存量政策和增量政策共同发力...
孩子这些行为,可能是多动症在“... 家有孩子的家长们,是不是常常会有这样的困惑:孩子活泼好动到底是天性使然,还是可能得了多动症呢?今天咱...
世界杯-乌纳希2球迪亚斯2助 ... 北京时间7月5日凌晨1时,2026世界杯首场1/8决赛打响,加拿大对阵摩洛哥,第21分钟,摩洛哥主力...
怎么判断南昌附近黄金回收机构是... 随着近年黄金价格波动频繁,不少南昌市民有闲置黄金变现的需求,很多市民在寻找附近黄金回收时会首先关注商...
上海电销专用卡服务相关企业情况... 电销类通讯产品行业背景 当前国内众多电销类企业日常运营中,高频外呼是核心业务场景之一,传统通讯产品容...
如何靠“断舍离式消费”过上更轻... 曾几何时,我也迷恋过买买买。 换季就剁手,节日必囤货,刷短视频看到“爆款推荐”立刻加购。 买得多,...
推出储架、提高额度、市价发行,... 在证监会主席吴清“预告”两周之后,再融资新规露出真容。 7月3日晚间,证监会宣布就完善上市公司再融资...
国家网信办就《互联网信息服务管... 国家互联网信息办公室就《互联网信息服务管理办法(修订草案征求意见稿)》再次公开征求意见。《办法(修订...