随着以大模型为代表的AIGC迅速崛起,数据到算力需求的持续暴涨,为数据中心带来了巨大的考验。为填补算力鸿沟,下一代数据中心必须要具备更高的算力密度、更大的网络规模,并能够灵活地部署和更新海量新应用。
在这一轮新的技术方向中,异构计算架构和Chiplet技术因能有效提升复杂场景计算效率,算力密度和网络规模,被普遍视为通往数据中心未来的能效之路。
AIGC或将撕开数据中心算力缺口
在AI大模型飞速发展之下,单个大语言训练驱动AI训练服务器需求约2亿美元,AI推理服务器方面,如ChatGPT在初期便可带动推理服务器需求约45亿美元。
据中国信通院,2021年国内IDC市场规模1500.2亿元,同比增长28.5%。据信通院预计,随着我国各地区、各行业数字化转型深入推进、AI训练需求持续增长、智能终端实时计算需求增长,2022年国内市场规模将达1900.7亿元,同增26.7%。
算力作为大模型的核心引擎,计算方式简单粗暴,即实际拥有多少的GPU芯片,将直接决定其算力的大小。以ChatGPT为例,其模型计算主要基于微软的Azure云服务进行,本质上是借助微软自有的IDC资源,在云端完成计算过程后,再将结果返回给OpenAI。
AIGC所需的算力不是固定的,而是逐次递增的。数据中心是承接AI计算需求的直接形式,其算力需求为AIGC的能力所驱动,也就是AIGC越聪明,其背后所需要的算力就越多,而供需双方存在的现实差距,则让数据中心的算力缺口变得愈加严重。
互联网厂商布局ChatGPT同类产品,或将加大核心城市IDC算力供给缺口。艾瑞咨询数据显示,2021年国内IDC行业下游客户占比中,互联网厂商居首位,占比为60%,国内核心城市IDC算力供给缺口或将加大。
AIGC时代,智能算力崛起
随着人工智能进入新的发展周期,以及大模型的兴起,传统的芯片需求结构发生了变化。尽管总体算力仍在增长,但通用计算力由CPU主导的比例正在下降,而智能计算力由GPU主导的比例逐渐增加。
目前,GPU在AI芯片市场的占比约为90%。根据VMR的数据,2021年全球GPU行业市场规模为334.7亿美元,随着大型模型训练的成熟,预计到2030年将达到4773.7亿美元,年均增长率为34.35%。
新华三集团副总裁、计算存储产品线总裁徐润安在接受媒体采访时表示,智能算力占比变大原因在于,x86架构CPU单核性能强、通用性好。但AI场景需要多核、高并发、高带宽芯片。综合考虑成本、效率,GPU、DPU、NPU通常表现更好。CPU部分职能被其他专用芯片分担。在他看来,大模型会带来巨大的智能算力消耗。
Chiplet:破局数据中心未来
近20年中,单一的制程微缩已被证明无法赶上对性能需求的步伐。尤其是在数据中心,情况远比客户端产品更为复杂,一个非常典型的情况是多个客户端在同一产品上运行工作负载,如多核CPU或GPU。于是,人们开始将未来依托在将计算单元、内存等和其他模块成在同一封装上的Chiplet异构集成路线之上。
Chiplet架构对于服务器处理器而言意义非凡,大大降低了处理器的开发门槛和成本,起到了巨大的推动作用。正如AMD开创性的chiplet产品所证明的那样,转向chiplet技术可以显著改善数据中心的计算成本,并提高互连效率。迄今,全球主流服务器芯片厂商都开始将chiplet纳入自身产品的主要路径之一。
就此,英特尔 IO 技术解决方案团队战略家Kurt Lender 总结了 chiplet 技术的影响“有合理的预期,未来 10 年的 HPC 采购将利用 chiplet 技术更好地支持他们的科学工作负载。” AMD 的 CEO Lisa Su也表现出了同样的期待,当被问及她是否认为未来 10 年的 HPC 采购指定定制chiplet设计的计算芯片而不是现成的商品时,她回答“是”。
Kurt Lender 表示,创建基于 UCIe 的chiplet 设计在成本方面具有显著的优势,“有各种纵向扩展和横向扩展的成本优势,包括由于与单片硅设计相比占地面积更小而导致chiplet的高良率而节省的成本,以及能够指定可以利用 HPC 冷却功能的高密度、高功率封装。在其最完整的表达中,基于chiplet 的架构使设计人员能够将来自多个供应商的 IP 和不同职称工艺技术的芯粒快速集成到一个封装中。”
关于随着以大模型为代表的人工智能大规模计算的迅速崛起,数据中心的算力难题不断加剧。而异构和Chiplet会将数据中心的未来引向何处,还让我们拭目以待。
审核编辑:刘清