小程序
传感搜
传感圈

华为推出全新架构的昇腾AI计算集群 可支持超万亿参数大模型训练

2023-09-24
关注


9月20日,华为面向ICT产业的年度旗舰活动——华为全联接大会2023在上海举办。本届大会以“加速行业智能化”为主题,与全球行业精英、技术专家、合作伙伴、开发者等共同探讨如何把握战略机遇,通过行动共赢智能化未来。

记者在会上了解到,当前,智能化已掀开新篇章。人工智能取得突破性进展,大模型呈现出百模千态的繁荣局面;在千行万业,人工智能也开始走深向实,服务于越来越多的业务场景。但是,行业智能化的进程中正面临着数据、算力、算法、应用部署等挑战。

华为副董事长、轮值董事长、CFO孟晚舟指出,算力是人工智能发展的核心驱动力。大模型需要大算力,算力大小决定着AI迭代与创新的速度,也影响着经济发展的速度。算力的稀缺和昂贵,已经成为制约AI发展的核心因素。为此,华为改变了传统的服务器堆叠模式,以系统架构创新的思路,着力打造AI集群,实现算力、运力、存力的一体化设计,突破算力瓶颈,提供可持续的澎湃算力。

华为常务董事、ICT基础设施业务管理委员会主任、企业BG总裁汪涛表示,加速行业智能化关键需要从智联万物、智算万数、智赋万业三个方面着手,协同推进,从而解决AI在行业场景落地难的问题,实现百模千态与行业场景深度融合,赋能千行万业。

面向万亿参数大模型时代,大会上,华为推出全新架构的昇腾AI计算集群——Atlas 900 SuperCluster,可支持超万亿参数大模型训练。据介绍,新集群采用全新华为星河AI智算交换机CloudEngine XH16800,借助其高密的800GE端口能力,两层交换网络即可实现2250节点(等效于18000张卡)超大规模无收敛集群组网。新集群同时使用了创新的超节点架构,大大提升了大模型训练能力。此外,华为发挥在计算、网络、存储、能源等领域的综合优势,从器件级、节点级、集群级和业务级全面提升系统可靠性,将大模型训练稳定性从天级提升到月级。

硬件使能是释放大算力的关键,也是大模型开发的基础。为加速大模型创新,华为发布了更开放、更易用的CANN7.0,不仅全面兼容业界的AI框架、加速库和主流大模型,还深度开放底层能力,让AI框架和加速库可以更直接地调用和管理计算资源,使能开发者自定义高性能算子,让大模型具备差异化的竞争力。

面向Transformer网络模型的开发,华为升级了Ascend C编程语言,以更高效的编程方式,简化算子实现逻辑,将融合算子的开发周期从2人月缩短到2人周,助力AI模型与应用的快速开发。

您觉得本篇内容如何
评分

评论

您需要登录才可以回复|注册

提交评论

提取码
复制提取码
点击跳转至百度网盘