C114讯 6月25日消息(水易)近日,由北京市通信管理局、中国信息通信研究院(以下简称“中国信通院”)、中国互联网协会、中国通信标准化协会主办的2023算力互联互通大会在北京召开。
中国信通院云计算与大数据研究所副所长栗蔚以《从算力互联互通到算力互联网探索》为题,对中国信通院在算力互联互通领域的研究成果进行介绍。
算力互联互通是必然趋势
《数字中国建设整体布局规划》中强调,“系统优化算力基础设施布局,促进东西部算力高效互补和协同联动。”。《关于加快构建全国一体化大数据中心协同创新体系的指导意见》提出,“支持开展全国性算力资源调度,加快建立完善云资源接入和一体化调度机制。”
栗蔚表示,构建算力互联互通体系,是落实中央国务院部署的重要举措,也是信息通信高质量发展的现实需求。
据了解,算力互联互通是指以算力任务为流动要素,对算力资源进行感知汇聚,通过算网一体调度,实现算力基础设施间架构互通,高速互联,有效提高算力资源综合利用水平,推动经济社会高质量发展。
“当前,算力互联互通已成为信息通信产业发展的必然趋势。”栗蔚介绍,在国际上,美国能源局发布了高性能数据基础设施(HPDF)计划,要求实现东西部海岸40多个机构算力互联互通;在国内,不管是地方政府还是服务商都推出了算力交易、算力服务、算力调度等产业生态创新。
从不同应用场景看,也对算力互联互通提出不同需求。以大模型训练场景为例,目前存在智算服务商20余家开发生态不统一,高性能算力大数据量传输速度与国际先进水平差距在数十倍,算网云协同调度缺少统一操作系统等痛点。因此在算力原子层(GPU、CPU等模块)需要算网云操作系统实现架构互通、高速互联。
另外在资源层面,也就是东数西算应用场景,如果想要实现算力真正的像水电一样服务,用户就需要一点接入、全算贯通。不过目前存在服务商数量多,各自为战;算力架构种类多,接口不开放;算网调度能力弱等痛点。因此在算力资源层需要一个类似域名的公共平台实现算力标识感知、算网资源解析、一体化调度。
“三位一体”实现互联互通
面对算力互联互通的需求和挑战,业界提出算力互联互通五层模型,在以太网层、算力网络层之上,还有算力原子层、算力资源层、业务数据层。如何实现互联互通?栗蔚介绍,中国信通院提出标准、算网云开源操作系统(CNCOS)和算力互联互通平台,“三位一体”的实现路径。
标准层面,规划了三个大类的十项标准。总体功能部分,包括总体框架、网络互联、算力调度、业务互通、数据流动;算力资源层部分,包括算力标识、度量计量;算力原子层部分,包括高性能算力服务远程直接内存访问(RDMA)技术、GPU架构互通、DPU架构互通。
栗蔚表示,在标准基础上,通过算网云开源操作系统CNCOS,把标准进行开源实现、技术落地。OpenCNC调度系统对应算力资源层应用,ODPU、oneRDMA和OGPU三个系统,对应算力原子层的标准实践落地。
OpenCNC 1.0版本可以实现算力标识注册、算网参数调度、身份认证管理、统一计费度量等关键能力。该项目由中国信通院牵头,以算网云开放社区为桥梁,建立算力互联互通质量保障基础,支撑算力互联互通体系持续优化发展。
ODPU开发框架1.0在DPU管理、计算卸载、存储卸载、网络卸载、安全卸载和RDMA支持等维度基于产业共识形成标准。OGPU1.0开发框架的目标是打造统一GPU开发接口,纳入各厂商的编程接口。oneRDMA1.0将实现国内统一的高性能算力服务远程直接内存访问(RDMA)通信协议,兼容封装层统一接入标准。
与此同时,算力互联互通平台方面,通过提供算力注册感知、算网参数调度、身份认证管理、统一计费度量等至公共服务,构建架构互通、高速互联的标准化环境,降低算力服务商间算力互联互通成本,实现用户“一点接入,全算贯通”,提高算力任务流动和数据传输效率。
最后,栗蔚提出了对算力互联网的初步设想,并期待未来能够与产业各界共同探讨算力互联网五要素、分层模型及高性能算力服务远程内存直接访问(RDMA)技术,并验证通过算网云开源操作系统(CNCOS)及算力互通平台实现算力互联网工程化落地的可行性。