百度智能云重磅宣布:将点亮昆仑芯三代三万卡集群
创始人
2025-02-05 23:48:38
0

近日,百度智能云成功点亮昆仑芯三代万卡集群,这也是国内首个正式点亮的自研万卡集群。据悉,百度智能云将进一步点亮3万卡集群。这一重大突破标志着百度在人工智能算力领域迈出了坚实的一步,不仅为百度自身的技术发展提供了强大动力,也为整个中国科技界、互联网行业和AI行业带来了新的发展机遇。

万卡集群优势凸显,助力算力突破与成本优化

万卡集群的建成不仅为百度带来了强大的算力支持,还推动了模型降本的趋势。在过去一年中,整个行业都在努力降低大模型的使用成本,而算力紧张是导致成本居高不下的重要因素之一。百度通过自研芯片和大规模集群的建设,不仅解决了自身算力供应的问题,还为整个行业提供了新的思路和方向。

从算力上看,超大规模并行计算能力可实现训练效率跃升,万卡集群可将千亿参数模型的训练周期大幅降低,满足AI原生应用快速迭代的需求。同时也能支持更大模型与复杂任务和多模态数据,支撑Sora类应用的开发。此外,万卡集群能够支持多任务并发能力,通过动态资源切分,单集群可同时训练多个轻量化模型,通过通信优化与容错机制减少算力浪费,实现训练成本指数级下降。

随着国产大模型的兴起,万卡集群逐渐从“单任务算力消耗”到“集群效能最大化”过渡,通过模型优化、有效训练率提升、动态资源分配等手段,智能调度任务,将训练、微调、推理任务混合部署,从而提升集群综合利用率,降低单位算力成本。

百舸赋能,全方位提升集群性能与稳定性

过去,多芯混训和激增的故障率等难题,成为万卡集群部署过程中的巨大挑战。而24年9月升级的百度百舸AI异构计算平台4.0(以下简称“百舸平台”),在万卡集群的建设中发挥了至关重要的作用。

首先,突破硬件扩展性瓶颈,如卡间互联的拓扑限制,避免通信带宽成为瓶颈;同时,围绕芯片及集群功耗,基于万卡规模常规方案功耗可达十兆瓦或更高,采用创新性散热方案,从而解决万卡集群的能效与散热问题;完善模型的分布式训练优化,采用高效并行化任务切分策略,训练主流开源模型的集群MFU提升至58%;在提升稳定性方面,提供容错与稳定性机制,避免由于单卡故障率随规模指数上升而造成的万卡集群有效性大幅下降,保障有效训练率达到98%;最后,针对机间通信带宽需求,建设超大规模HPN高性能网络,优化拓扑结构,从而降低通信瓶颈,带宽有效性达到90%以上。

百舸4.0构建了十万卡级别的超大规模HPN高性能网络,针对跨地域通信中的高延迟问题,通过优化的拓扑结构、多路径负载均衡策略及通信策略,实现了几十公里的跨地域通信。在通信效率上,百舸通过先进的拥塞控制算法和集合通信算法策略,实现了完全无阻塞,并通过10ms级别超高精度网络监控,保障了网络的稳定性。

在多芯混训方面,百舸展现了强大的资源整合能力。它能够将不同地点、不同规模的异构算力进行统一管理,构建起多芯资源池。当业务提交工作负载时,百舸可自动进行芯片选型,依据集群剩余的芯片资源,选择性价比最高的芯片来运行任务,从而最大化地利用集群的剩余资源,实现高达95%的万卡多芯混合训练效能。

此外,在集群稳定性方面,百舸提供了全面的故障诊断手段,能够快速自动侦测到导致训练任务异常的节点故障。百度自研的BCCL(百度集合通信库)能够快速定位故障并提供自动化的容错能力,将故障恢复时间从小时级降低到分钟级,极大地提高了集群的可靠性和可用性。

日前,花旗银行发布研报表示,DeepSeek、百度等中国模型展现出高效和低成本优势,将有助于加速全球AI应用开发,并在全球引发更多技术创新,推动2025年人工智能应用的拐点。中国工程院院士、清华大学计算机系教授郑纬民也表示,当下构建国产自主万卡系统充满挑战,但"至关重要"。

相关内容

热门资讯

国内Agent赛道最大融资为什... 文:王智远 | ID:Z201440 昨天有条融资新闻,不知道你有没有刷到。 企业级 AI Agen...
深度揭秘小米家电:9年毛利率增... (图片来源:网络) 出品|搜狐财经 作者|李保铭 仅有12年家电从业历史的小米,竟然成为一众家电大厂...
金价站上3300美元/盎司,有... 图源:图虫创意 国际黄金价格波动,催生了黄金回收市场的火热。 近日,有浙江温州的消费者将持有的8公斤...
艺康集团:2025年餐饮消费洞... 今天分享的是:艺康集团:2025年餐饮消费洞察报告 报告共计:16页 《艺康集团:2025年餐饮消费...
公司热点|赣锋锂业陷财务造假传... 7月3日午间,就“网传公司财务造假即将爆雷”的问题,赣锋锂业(002460)在互动平台表示,该信息为...
原创 沉... 前言 6月30日深夜,距离韩国对华征税刚过去5天。中国商务部一纸公告,瞬间搅动了整个东亚钢铁市场。...
IPO半年图谱:A股、港股“揽... 记者 牛钰 从年初的“松动”信号到年中节点,IPO(首次公开发行)市场节奏和主线的变化一直牵动着资本...
8月1日起黄金买卖大变化!现金... 中国人民银行近日发布《贵金属和宝石从业机构反洗钱和反恐怖融资管理办法》,宣布自2025年8月1日起,...
镁信健康拟赴港上市:七轮融资超... (图片来源:视觉中国) 蓝鲸新闻7月3日讯(记者 石雨)近日,据港交所公告,上海镁信健康科技集团股份...
格力集团迎来新任董事长 格力集团官网近日更新显示,出生于1982年的邹晖,已任集团党委书记、董事长。 格力集团是珠海市属国企...
清华发布下半年经济形势展望报告... 由清华大学中国经济思想与实践研究院举办的第49届清华大学中国与世界经济论坛于7月2日在线上播出。 ...
放量超8成!中证红利质量ETF... 7月3日,高质量红利崛起。截至14时31分,中证红利质量ETF(159209)涨0.89%,冲击四连...
哈根达斯失宠,瑞幸进击美国:国... 一年关闭80家门店,冰淇淋中的爱马仕,在中国撑不住了。 近日,市场传出消息,“哈根达斯”的品牌公司通...
何宇鑫:决战非农 数据会否让鲍... 7月3日,周三,美元指数小幅反弹,盘中一度重回97关口上方,但随后回吐部分涨幅。 因弱于预期的“小非...
「赛博菩萨」发威!AI 巨头的... 马斯克和特朗普,这对白宫二人转最近「嘴炮大战」进入到 2.0 时期。和这对欢喜冤家类似的,是国外出版...
越南胡志明指数创三年新高 7月3日,越南股市震荡走高。英为财情数据显示,截至北京时间13:48,越南胡志明指数涨0.52%,报...
马斯克xAI获100亿美元融资... 7月3日消息,摩根士丹利在海外社交媒体X上发文,称埃隆·马斯克旗下xAI已完成50亿美元(约合人民币...
年赚9.86亿!无人矿卡巨头拟... (转自:广东省半导体行业协会) 近期,国内无人矿卡领域巨头易控智驾已正式向港交所提交招股书,过去三年...
非农最全前瞻暗示“又有假行情”... 非农,此次周四(7月3日)发布,因7月4日(周五)是美国独立日放假,所以较平时提前一天。具体是:周四...
九部门发文:重点培育三类个体工... 【大河财立方消息】7月3日消息,市场监管总局等九部门发布《关于推进高效办成个体工商户转型为企业“一件...