日前,DEEP AI宣布推出业界首个边缘深度学习应用,集成训练和推理解决方案。有了DEEP AI,边缘的每个推理节点也会成为一个训练节点,与当今以云为中心的人工智能方法相比,它能够实现更快、更便宜、可扩展和更安全的人工智能。
DEEP AI的解决方案运行在现成的FPGA卡上,消除了对GPU的需求,与GPU相比,它的性能/功耗比或性能/成本比提高了10倍。因为无需关注FPGA硬件设计,对于设计人工智能应用程序的数据科学家和开发人员来说非常方便。支持标准的深度学习框架,包括Tensorflow、Pythorch和Keras。
以往训练深度学习模型和服务推理需要昂贵、耗电量大的GPU提供大量计算资源,因此深度学习是在云端或大型内部数据中心中执行的。训练新模型需要几天甚至几周的时间才能完成,而且推理查询会受到往返云端的长时间延迟的影响。
深层人工智能LogoYet是一种输入云系统的数据,用于更新训练模型和推理查询,主要是在边缘生成的,包括商店、工厂、终端、办公楼、医院、城市设施、5G手机站点、车辆、农场、家庭和手持移动设备。在云端或数据中心之间传输快速增长的数据会导致不可持续的网络带宽、高成本和低响应速度,并损害数据隐私和安全性,降低设备自主性和应用程序可靠性。
为了克服这些局限性,Deep AI为边缘端开发了一个集成的、整体的、高效的训练和推理深度学习解决方案。使用Deep AI,应用程序开发人员可以部署一个集成的训练推理解决方案,在同一设备上并行在线推理的同时,对他们的模型进行实时再训练。
Deep-AI技术的核心是能够在8位定点进行训练,同时在训练时具有高稀疏率,而不是32位浮点和非稀疏算法,这是当今GPU的标准。这两项技术突破使得人工智能平台在性能、功耗和成本上都更为出色。当被实现到一个ASIC中时,它们可以在芯片内驱动100倍的效率。
创新算法弥补了8位定点精度较低和稀疏性较高的缺点,并将训练精度降到最低。对于边缘应用程序,使用案例通常要求使用增量数据更新对预先训练的模型进行再训练,在大多数情况下,训练精度保持,而在其他情况下,训练精度可以降低到最小。
此外,在今天的大多数系统中,训练是在32位浮点上进行的,而人们越来越希望在8位定点上运行推理。在这些情况下,需要手动运行具有挑战性以及耗时和耗资源的量化过程,以将32位训练输出转换为8位推理输入。此外,这种转换通常会导致精度的损失。因为深层人工智能的训练是在8位定点上完成的,所以它可以通过设计进行推理,并直接提供给推理。在推理之前,不需要人工干预或处理来量化训练输出,从训练到推理也不会损失精度。
DEEP AI的解决方案使用FPGA,在各种加速工作负载中的应用正在迅速增长。在深度学习方面的最新进展支持使用8位定点数字格式进行推理,并在FPGA上实现低延迟推理。Deep AI的突破性技术向前迈出了一大步,它还支持在FPGA上使用8位定点数字格式进行训练,并在同一个FPGA平台上运行训练和推理。
目前,Deep AI的解决方案可用于Xilinx和领先服务器供应商的标准现成FPGA卡上的内部部署。该解决方案还将于2021年第一季度在基于Xilinx云的FPGA即服务实例上提供。
与Xilinx、Dell Technologies和One Convergence合作
Deep AI的解决方案运行在Xilinx Alveo加速卡上,这是一种经过认证的PCI-e插卡,可在各种标准服务器上使用。同一个硬件用于深度学习模型的推理和再训练,允许一个持续的迭代过程,使模型更新为连续生成的新数据。
Xilinx软件和人工智能解决方案营销副总裁Ramine Roane说:“DEEP AI在应对深度学习模型的定点训练挑战方面的表现令人印象深刻。Xilinx很高兴能与Deep AI合作,将基于我们自适应平台的培训解决方案推向市场。”
Deep AI与Dell Technologies合作验证了PowerEdge R740xd机架式服务器(预装Xilinx Alveo加速卡)和示例网络模型和数据集,特别针对了零售和制造市场。
此外,DEEP AI为客户提供一个融合DKube完整的端到端企业MLOps平台集成的深度人工智能解决方案。
“我们很高兴与深度人工智能合作,通过我们的DKube平台为我们的客户提供具有成本效益的综合训练和推理加速解决方案,”Dkube营销和销售高级总监Ajai Tyagi说。“Dkube(https://www.dkube.io)是一个基于Kubernetes的平台,基于Kubeflow和MLFlow等开放标准,它满足了AI社区对通用集成MLOps工作流的关键需求,尤其是那些希望部署在prem和/或混合模型上的人。”