小程序
传感搜
传感圈

基于FPGA打造的百度昆仑芯片优秀在何处?

2020-04-22
关注
摘要 软件领域的谷歌、Facbook,硬件厂商英伟达、英特尔等全都宣布了自己的芯片规划以及未来远景。在这个大背景下,以百度昆仑芯片为代表的国产技术,能够突破国际巨头技术体系的压制,成为国内业界普遍关注国产代表。

  作为Al芯片的积极布局者与应用者,百度对外发布AI云端芯片“昆仑”,备受业界瞩目。在中国产业智能化进程的逐步深入,市场对于 AI 算力的需求超大规模增长,在端侧部署 AI 芯片也成为企业应用 AI 的重要一环。


  我国在人工智能芯片领域不断取得创新突破。各个平台型企业也纷纷基于数据、算法和应用优势,宣布进军人工智能芯片领域。AI领域已经成为世界科技巨头争夺的制高点, AI应用的爆发对运算能力提出越来越高的要求,基于传统芯片的AI运算加速,已经不能满足需求。

  软件领域的谷歌、Facbook,硬件厂商英伟达、英特尔等全都宣布了自己的芯片规划以及未来远景。在这个大背景下,以百度昆仑芯片为代表的国产技术,能够突破国际巨头技术体系的压制,成为国内业界普遍关注国产代表。中国首款云端Al全功能AI芯片“昆仑”是中国在大规模AI运算实践中催生出的芯片。

  与市面上已发布的适用于垂直场景的芯片不同,百度之所以将“昆仑”定义为国内首款云端全功能芯片,是因为其可高效地同时满足训练和推断的需求,除了常用深度学习算法等云端需求,还能适配诸如自然语言处理,大规模语音识别,自动驾驶,大规模推荐等具体终端场景的计算需求。

  众所周知,GPU是打造AI芯片的重要手段之一。百度昆仑芯片是基于FPGA所打造的AI芯片采用了XPU架构。在FPGA方面,百度拥有超过8年的FPGAAI加速器积累,累计上线超过了1万个。其XPU架构及软件栈也在实际业务中,有了超过8年的持续迭代。

  昆仑芯片与GPU和专用AI芯片相比,在实行性能和性价比上都有一定的优势。昆仑芯片非常通用且灵活,既可以做训练也可以做推理,XPU的功能架构也在百度内部很多应用中得到验证,相对而言,它是一款全功能的Al芯片。

  百度昆仑采用了14nm三星工艺、260Tops性能、512GB/s内存带宽、100+ 瓦特功耗,由几万个小核心构成。昆仑芯片可以在100瓦+功耗下提供260TOPS ,每秒260万亿次定数运算性能。此前,NVIDIA用于汽车L 4.L .5自动驾驶的Xavier芯片,8核ARM CPU+512颗CUDA的性能是30TOPS。

  架构方面:昆仑芯片有2个计算单元,512GB/S的内存带宽,16MBSRAM/unit。16MB的SRAM对AI推理很有帮助,XPU架构上的XPU-SDNN是为Tensor等而设计,XPU-Cluster则能够满足通用处理的需求。昆仑第一代芯片没有采用NVLink,而是通过PCIE4.0接口进行互联。在三星14nm的制造工艺和2.5D封装的支持下,昆仑芯片峰值性能可以达到260TOPS,功耗为150W。

  在灵活性和易用性方面:昆仑面向开发者提供类似英伟达CUDA的软件栈,可以通过C/C++语言进行编程,降低开发者的开发难度。基于第一代昆仑芯片,百度推出了两款AI加速卡,K100和K200,前者算力和功耗都是后者的两倍。在语音常用的Bert/Ernie测试模型下,昆仑也有明显性能优势。在线上性能数据的表现上,昆仑的表现相比英伟达T4更加稳定,且延迟也有优势。

  2019年12月18日,三星宣布代工百度首款云到边缘AI芯片“昆仑”,借由三星14纳米处理技术及其I-Cube(Interposer-Cube)封装解决方案生产。三星的 14nm 工艺是其最广泛使用的制造节点之一,该工艺的晶体管密度为 32.5 MTr /mm,主要用于英伟达的 GeForce 10 系列,以及许多高通和三星芯片。它有多种变体,包括 14nm LPE(Low Power Early)和 14nm LPP(Low Power Plus)。

  目前昆仑芯片已完成开发,并将批量生产。昆仑芯片首先将会用于百度的自家产品当中,能解决工业智能遇到的计算问题以及和飞腾ARM处理器的适配。工业上百度昆仑芯片也正式在微亿智造的工业智能质检设备上部署上线。百度智能云以整机一体化方式,向微亿智造交付搭载百度昆仑芯片的百度云质检一体机。

  预计在今年以内,微亿智造的数千台智能质检设备将全部应用上百度昆仑芯片,而百度昆仑还将在更多场景中部署应用,百度的AI能力将成为“新基建”的重要基础,推动工业制造业的产业智能化升级。

您觉得本篇内容如何
评分

评论

您需要登录才可以回复|注册

提交评论

大比特商务网

这家伙很懒,什么描述也没留下

关注

点击进入下一篇

物联网是否会彻底改变云数据中心?

提取码
复制提取码
点击跳转至百度网盘