本期专题为“人工智能的系统观”,作者都是活跃在人工智能系统研究和创新的第一线的专家,具有很高的理论造诣和丰富的实践经验,在学术界、产业界以及开源社区都具有广泛的影响力。他们将以不同的视角,从不同的维度为读者带来详细的讲解,结合产学研一体的实践案例,为读者全方位展示人工智能系统的魅力。
以深度学习为代表的人工智能领域在最近十年得到了迅猛发展,人工智能的算法、模型得到了越来越多的关注及应用。广泛意义下的人工智能系统作为智能时代的“新基建”,将对人工智能的进一步发展以及应用落地起到举足轻重的作用。广义的人工智能系统涵盖了从专用硬件加速器到新的体系结构,再到语言、框架和编译,最后到分布式系统和网络资源分配、调度和执行管理等多个层次,关注包括可用性、可扩展性、异构性、大规模可伸展性、性能和能耗、可靠性、安全隐私等在内的多个维度。人工智能系统的设计、实现和优化并不是割裂的,而是需要全栈式的统筹、设计和优化,并需要对人工智能本身及其发展方向有深入的理解和前瞻性的判断。
更为重要的是,人工智能的继续发展需要具有更强的系统观,具备更好的抽象能力将人工智能面临的复杂问题化繁为简,借鉴和使用计算机程序语言、网络和系统等多个领域中的经典方法,并以合理层级框架和有效工具的形式,充分提高人工智能研究和实践的效率和创新能力。
目前,我们对智能时代“新基建”关键领域的关注度和人才储备明显不足。既掌握系统世界观和方法学,熟谙硬件设计、体系结构、语言框架、编译技术、分布式系统和网络设计等领域的知识和技能,又对人工智能有深入了解的跨领域人才依旧短缺。本期专题聚焦人工智能的计算机系统观,从硬件加速、系统结构、语言框架和编译器、计算机网络以及分布式系统等方面对人工智能系统进行了全面介绍,帮助读者了解人工智能系统的全景、基本概念以及关键技术,在人工智能和计算机系统相互融合这一大趋势的背景下,启发读者建立对人工智能下一步发展至关重要的系统观。
本期专题汇集了著名高校及企业科研机构的知名专家学者撰写的文章。这些专家都活跃在人工智能系统研究和创新的第一线,具有很高的理论造诣和丰富的实践经验,在学术界、产业界以及开源社区都具有广泛的影响力。他们将以不同的视角,从不同的维度为读者带来详细的讲解,结合产学研一体的实践案例,为读者全方位展示人工智能系统的魅力。
在系统结构层级,中国科学院计算技术研究所陈云霁团队从算法和架构协同的角度介绍了寒武纪如何以软硬件协同设计的方式为稀疏推理和量化训练等神经网络压缩方法提供相应的硬件架构支持,为构建高能效深度学习处理器提供范例。清华大学汪玉团队以在多用户共享、高并发和动态负载的云端智能应用场景中,提高云端数据中心的整体硬件利用率为目标,利用硬件架构、软件驱动、中间层和操作系统的多层次协同的方法对支持异构硬件平台的虚拟化技术进行了详细探讨。上海交通大学冷静文等人用数据流思想开展了面向深度学习的体系结构研究,设计了跨域的数据流分析框架与管理机制,可广泛用于实现异构计算系统的高可靠性,对稀疏深度神经网络的加速,以及提升深度模型的可解释性和鲁棒性。
在人工智能语言、框架和编译层,华为昇腾开源生态总监黄之鹏等人基于开源社区建设和发展的丰富经验,对深度学习框架发展的三个阶段进行剖析,指出我们正进入面向全场景的AI计算框架时代,并分析了人工智能开源生态的发展趋势。
在分布式系统和网络层,阿里云机器学习PAI平台技术负责人林伟以大规模分布式训练的工程实践为基础,介绍了支持模型并行的自动分布式框架Whale,其结合了分布式编程范式、中间表示层、编译、资源调度等的设计,实现了高效、低成本的模型训练和推理。字节跳动公司机器学习团队的郭传雄等人则从网络通信入手,从整体上分析了通信优化空间,并从通信传输、通信调度以及通信拓扑三个角度,设计了全方位的优化方法,在实际部署的大规模系统中取得了显著的加速效果。清华大学智能产业研究院首席研究员刘云新则聚焦于智能边缘计算,全面阐述了该领域的独特挑战和机遇,其中包括面向不同设备的模型压缩和优化、基于异构硬件资源的系统优化、隐私保护和模型安全以及主动持续学习。
周礼栋
CCF专业会员。微软亚洲研究院院长、微软杰出首席科学家。主要研究方向为大规模分布式系统、存储系统、无线通讯和网络,以及系统的安全和可靠性等。lidongz@microsoft.com
特别声明:中国计算机学会(CCF)拥有《中国计算机学会通讯》(CCCF)所刊登内容的所有版权,未经CCF允许,不得转载本刊文字及照片,否则被视为侵权。对于侵权行为,CCF将追究其法律责任