小程序
传感搜
传感圈

郑纬民院士谏言国产GPU发展两大关键问题

2023-12-14
关注

12月13日,在第二届数据安全治理年会上,中国工程院院士郑纬民表示,我国人工智能企业正面临“国外一卡(GPU)难求,国产卡使用意愿低”的现状,应从软硬件两方面突破瓶颈,完善国产GPU硬件生态,优化大模型基础设施。

我国人工智能产业面临软硬件两方面瓶颈

郑纬民提出了算力“三大定律”:人类已经进入以算力为核心生产力的数字经济时代,算力就是生产力,这是“时代定律”;当下,算力每12个月就增长一倍,算力资源增速显著,已经打破摩尔定律,这是“增长定律”;算力每投入1元,就带动3-4元GDP经济增长,这是“经济定律”。

近年来,我国人工智能产业呈指数级增长。郑纬民表示,预计到2025年,中国人工智能产业规模将超过4500亿元,带动产业规模超1.6万亿元。

郑纬民直言,我国人工智能产业正面临着软件、硬件两方面的瓶颈。

从硬件角度看,一方面,我国国产芯片产量不足。郑纬民表示,2021年,我国人工智能服务器芯片总用量100万片,其中,美国英伟达占95%左右,国产芯片出货量不到5万片;另一方面,国产GPU硬件竞争力不足,并未真正受到市场认可。

从软件角度看,我国在算法等技术方面仍然有所欠缺,当前,谷歌和Meta的人工智能算法开发框架占中国人工智能市场份额的90%以上。

郑纬民坦言,目前我国人工智能企业正处于“国外一卡难求,国产卡使用意愿低”的现状。要解决当下面临的问题,一是营造完善的国产GPU硬件生态,二是优化大模型基础设施架构。

完善硬件生态要做好10个关键软件

郑纬民认为,要完善国产GPU硬件生态系统,需要做好10个关键软件:能够降低编写人工智能模型复杂度的编程框架;为多机多卡提供人工智能模型并行训练能力的并行加速;能够提供跨机跨卡的通信能力、支持人工智能模型训练所需各种通信模式的通信库;提供人工智能模型所需基本操作高性能实现的算子库;能够在异构处理器上对人工智能程序自动生成高效目标代码的AI编译器;提供异构处理器上编写并行程序支持的编程语言;提供在大规模系统上高效调度人工智能任务能力的调度器;针对人工智能应用特点提供高效内存分配策略的内存分配系统;提供在硬件发生故障后快速恢复模型训练能力的容错系统;以及支持训练过程所需数据读写的存储系统

郑纬民表示,相比芯片的“硬实力”,其生态才是更加影响使用体验的因素。“只要生态做得好,国产芯片只需要达到国外芯片性能的60%,客户就会满意。”郑纬民说。

“4个平衡”优化大模型基础设施

郑纬民强调,在设计大模型基础设施时,要思考“4个平衡”的优化问题。

一是半精度运算性能与双精度运算性能的平衡设计。在计算机系统的内存中,半精度、单精度和双精度是决定数据计算精确度的度量标准,双精度比半精度更精密,但同时要占据更多存储空间。郑纬民提出,大模型设计中不仅要考虑16位的半精度运算性能,还要考虑支持64位的双精度运算。他表示,最优的双精度与半精度运算性能比为1:100。

二是网络平衡设计。郑纬民指出,在网络设计方面,高带宽、低延迟的网络是极大规模预训练模型运行的必要条件。“在训练过程中,我们采用数据并行、模型并行和专家并行三种不同的并行方式,但这三种方式对互联有不同的要求。”郑纬民表示,“只有把通信做好,大模型才能顺畅跑通。”

三是体系结构感知的内存平衡设计。通俗而言,大模型在训练过程中使用的大量数据会产生大量的内存访问请求;对内存平衡的优化,目的是提升模型访存性能,从而提高模型训练效率。

四是输入输出子系统平衡设计。郑纬民指出,机器在执行大规模训练任务时,发生硬件、软件错误在所难免。针对这样的情况,容错检查点成为了大模型训练中的一道“保险闸”。容错检查点设置不足,会导致模型训练效率降低;检查设置过于频繁,则会浪费大量时间和存储空间。因此,优化检查点存储在大模型训练中的重要性不言而喻。

“只要以上四点平衡的问题得到解决,一块GPU就能发挥两块的作用。”郑纬民总结道。

您觉得本篇内容如何
评分

相关产品

CSMS 中科微感 人工智能+嗅觉传感器(AI-Nose) 气体传感器

中科微感逐步攻克了制约人工嗅觉传感发展的核心材料、硬件、算法等技术,开发出了以新型纳米敏感材料为基础,以微纳加工技术为支撑,以人工智能算法为核心的第一代 MEMS 基金属氧化物半导体原理的人工嗅觉传感器产这一产品将解决当前制约人工智能嗅觉技术与市场应用发展的关键问题:提供量产化的高一致、低成本、微型化的嗅觉传感器阵列硬件,以及提供标准化的人工智能+嗅觉气味感知软件平台,使客户能够快速构建和应用气味数据模型

XKCON 祥控 弹药库环境温湿度异常报警与智能监控系统 温湿度变送器

济南祥控自动化设备有限公司自主研发的XKCON祥控弹药库环境温湿度异常报警与智能监控系统采用物联网、传感器、大数据、人工智能等先进技术,能够对弹药库环境温湿度信息实现数字化、可视化管理。

山东美安 矿山电机车防追尾道岔口报警器 控制器及系统

煤矿用机车防追尾保护装置 机车防追尾保护装置是一种矿用人工智能保护装置、具有防追尾保护、无线触发沿途弯道语言保护、输出控制并记录等功能可广泛的使用在矿山井下、井上的运输机车上。

KEYENCE 基恩士 AI-1000C 图像匹配传感器

因此,人工智能系列能够在模式匹配的基础上对物体进行稳定的检测和识别,而这是基于强度或距离的传感器难以实现的。 基于强度或距离的传感器难以实现。

云传物联 水质生态浮标在线测站 多参数监测系统

电子水质监测解决方案利用信息控制与处理、人工智能、自动化、物联网及多媒体等技术,集水质参数在线采集、无线传输、智能处理、超限报警、远程管理等功能于一体的水质监测解决方案。

DINSEE 鼎信智慧科技 DX-WPS100-SP2... CMOS图像传感器

针对传统配电线路人工巡检效率低、周期长等问题,鼎信智慧结合物联网、红外热成像、人工智能等技术,研发了配电线路图像视频双光球机在线监测装置。

大立科技 DM60-W3 红外体温快速筛检

红外热成像体温快速筛检系统DM60-W3系列为384*288/640*480像素,人工智能算法,远距离、大场景测温更精准。

Maike 迈科光电 MK-PB4023PS&ALS&VC-A01E 接近传感器

EM30918、STK3311-X、STK3321、APDS-9900 ,9901、TMD2772WA、RPR0521RS、VCNL4035X01 WH4530A),广泛应用于平板电脑、工控显示类产品、智能家居、AI人工智能等场景,联想笔记本电脑,九安医疗的测温仪,微步数码的平板等都应用了我们这颗传感器,已量产批量出货。

Handsome 翰德圣 HDSELM V1.1 安全传感器和系统

设备全生命周期管理平台融合的物联网、云计算、大数据、人工智能、优化制造、再制造六项主流技术,通过云端模块化的架构可为企业灵活管理设备,不仅可以随时随地了解设备运行状态、发现故障隐患,还能够通过大数据分析指导企业维修

评论

您需要登录才可以回复|注册

提交评论

广告

集知网

这家伙很懒,什么描述也没留下

关注

点击进入下一篇

2023国际人工智能性能AIPerf500排行榜重磅发布

提取码
复制提取码
点击跳转至百度网盘