小程序
传感搜
传感圈

100分钟161次提“AI”,英伟达黄仁勋又放大招

2022-03-24
关注

3月22日晚11点,英伟达CEO黄仁勋在GTC大会上又演讲了,演讲地点从自家厨房搬到了公司。此次演讲,老黄将关注的重点聚焦在“AI”上。100分钟的演讲共提及161次“AI”,从英伟达当前支持的 AI应用,到更支持AI技术实现的处理器,再到英伟达提供的AI平台Omniverse。看来老黄这次是打算跟AI死磕了。

天气预报AI模型提前一周预测灾难性天气

“传统的数值模拟需要一年的时间,而现在只需要几分钟。”黄仁勋介绍称,英伟达与包括加州理工学院、伯克利实验室在内的多家科研机构合作开发的FourCastNet的天气预报AI模型,将能够预测飓风、极端降水等天气事件。黄仁勋称,FourCastNet由傅里叶神经算子提供动力支持,基于10TB的地球系统数据进行训练。依托这些数据,以及 NVIDIA Modulus 和 Omniverse,可实现提前一周预测灾难性极端降水的精确路线。

不仅是在极端天气愈加频繁的情况下发挥作用,英伟达的产品也使因疫情而愈加普遍化的在线办公更加智能化。配合在线会议的发展,黄仁勋在演讲中正式发布NVIDIA Riva。这是一种先进且基于深度学习的端到端语音AI,可以自定义调整优化,已经过预训练,客户可以使用定制数据进行优化,使其学习特定话术,以应对不同行业、国家和地区的需求。

另一种为应对在线办公而生的SDK(Software Development Kit,软件开发工具包)Maxine,也在黄仁勋此次视频演讲中呈现。这是一个AI 模型工具包,目前已拥有 30 个模型,可以帮助用户在参与线上会议的时候与所有人保持眼神交流,即便是正在读稿也不会被发现,还能实现语言之间的实时翻译。

“搭积木”技术建成AI工厂

“这是全球 AI 计算基础架构引擎的巨大飞跃,隆重推出 NVIDIA H100”。在演讲中,黄仁勋再次推出新产品。H100采用 TSMC 4N 工艺,具有 800 亿个晶体管,是首款支持 PCIe 5.0 标准的 GPU,也是首款采用 HBM3 标准的 GPU,单个H100 可支持 40 TBps 的 算力。从另一个角度来说,20块 H100 GPU 便可承托相当于全球互联网的流量。Hopper架构相较于前一代Ampere架构实现了巨大飞跃,其算力达到4 PetaFLOPS 的 FP8,2 PetaFLOPS 的FP16,1 PetaFLOPS 的 TF32,60 TeraFLOPS 的 FP64 和 FP32。H100 采用风冷和液冷设计,据黄仁勋介绍,这是首个实现性能扩展至 700 瓦的 GPU。在 AI 处理方面,Hopper H100 FP8 的 4 PetaFLOPS算力是 Ampere A100 FP16 的 6 倍。

不仅注重速度和算力,H100也注重数据使用的安全性。

“通常,敏感数据处于静态以及在网络中传输时会进行加密,但在使用期间却不受保护。”黄仁勋假设了一个场景,若一家公司具有价值数百万美元的AI模型,而在使用期间不受保护,则该公司将面临着巨大的数据风险。他声称,Hopper 机密计算能够保护正在使用的数据和应用,能够保护所有者的 AI 模型和算法的机密性和完整性。此外,软件开发者和服务提供商可在共享或远程基础架构上分发和部署宝贵的专有 AI 模型,在保护其知识产权的同时扩展业务模式。

黄仁勋隆重发布的全新AI计算系统DGX H100展现出英伟达像搭积木一样拓展处理器性能的技术。借助 NVLink 连接,DGX 使八块 H100 成为了一个巨型GPU:拥有6400 亿个晶体管,具备32 PetaFLOPS的 AI 性能,具有640 GB HBM3 显存以及 24 TB/s 的显存带宽。

仅仅连接GPU还不够过瘾,英伟达“搭积木”的技术可以再将8块GPU连接成的DGX进行连接。黄仁勋推出NVIDIA NVLink Switch 系统,借助 NVLink Switch 系统,计算系统可扩展为一个巨大的拥有 32 个节点、256 个 GPU 的 DGX POD, HBM3 显存高达20.5 TB,显存带宽高达 768 TB/s。每个 DGX 都可借助 4 端口光学收发器连接到 NVLink Switch,每个端口都有 8 个 100G-PAM4 通道,每秒能够传输 100 GB数据,32 个NVLink 收发器可连接到 1 个机架单元的 NVLinkSwitch 系统,以此实现超强的拓展性。

黄仁勋称英伟达正在建造 EOS——英伟达打造的首个 Hopper AI 工厂。搭载18 个DGX POD、576 台 DGX、4608 个 H100 GPU。在传统的科学计算领域,EOS 的速度是 275 PetaFLOPS,比 A100 驱动的美国速度最快的科学计算机 Summit 还快1.4倍。在AI方面, EOS 的 AI 处理速度是 18.4 ExaFLOPS,比全球最大的超级计算机——日本的 Fugaku 快 4 倍。

从H100到使用8块H100 构成的AI计算系统DGX H100,再到使用256个GPU的DGX POD以至于HopperAI工厂,英伟达像搭积木一样,构建起一套辅助AI计算的硬件系统。

与英特尔打擂台的Grace有望明年供货

在去年的GTC大会上,英伟达推出了首颗数据中心CPU——Grace。按照英伟达的介绍,这是一颗高度专用型处理器,主要面向大型数据密集型 HPC 和 AI 应用。与英特尔CPU坚守的X86架构不同, Grace另起炉灶采用ARM架构。黄仁勋声称,服务器用上这款CPU后, AI性能将超过x86架构CPU的10倍。这套言论无疑将使用Arm的Grace与使用x86架构拉起了擂台。

此次GTC大会,黄仁勋称Grace 进展飞速,有望明年供货。不止于此,老黄将“搭积木”技术继续应用在了Grace技术上。通过Grace与Hopper连接,英伟达打造了单一超级芯片模组Grace-Hopper。黄仁勋称Grace-Hopper 的关键驱动技术之一是内存一致性芯片之间的 NVLink 互连,每个链路的速度达 900 GB/s。Grace CPU 也可以是由两个通过芯片之间的 NVLink 连接、保证一致性的 CPU 芯片组成的超级芯片,可拥有144个CPU核心,内存带宽高达 1 TB/s。

接着,老黄给出了Grace 和 Hopper能够打造的不同排列组合方案:2 个 Grace CPU 组成的超级芯片;1 个 Grace 加 1 个 Hopper 组成的超级芯片;1 个 Grace 加 2 个 Hopper 的超级芯片;搭载 2 个Grace 和 2 个 Hopper 的系统;2 个 Grace 加 4 个 Hopper 组成的系统;2 个Grace 加 8 个 Hopper 组成的系统等。

“老黄”与“小黄”的对话透露出何种玄机

老黄的这次发布会,再次请出了英伟达仿照自己的形象设计的虚拟人——Toy Jensen。而这次,虚拟人Toy Jensen出现的主要目的,是展示英伟达用于构建虚拟形象或数字人框架的Omniverse Avatar。

在Toy Jensen完成过一轮百科功能展示之后,兴致勃勃地站在老黄对面展示起了自己的出生地——Omniverse Avatar。这是一个基于 Omniverse 平台构建的框架,用户可以快速构建和部署虚拟形象。“小黄”Toy Jensen的声音、面部均由英伟达的系列工具提供。“小黄”的声音由 Riva 的文本转语音 RADTTS 合成,Omniverse 动画的动画图形可定义并控制其动作, Omniverse Audio2Face 可驱动其面部动画。NVIDIA 的开源材质定义语言 (MDL) 可增加触感,使“小黄”的衣服看起来更有合成皮革的视觉感受,而不仅仅是塑料。最终,“小黄”的形象通过 RTX 渲染器能以实时高保真的程度呈现。得益于 Riva 中的最新对话式 AI 技术和 Megatron 530B NLP 模型,“小黄”得以与真人进行对话。不仅如此,归功于一款使用 Omniverse Avatar 构建的应用Tokkio ,“小黄”还能连接到更多类型的数据,它将客户服务 AI 引入零售店快餐餐厅,甚至网络。

您觉得本篇内容如何
评分

评论

您需要登录才可以回复|注册

提交评论

提取码
复制提取码
点击跳转至百度网盘