小程序
传感搜
传感圈

ChatGPT背后的算力杀手锏

2023-03-13
关注

ChatGPT背后的算力杀手锏

芯东西(公众号:aichip001)
编译 |  ZeR0
编辑 |  漠影

芯东西3月14日消息,为了向人工智能(AI)初创公司OpenAI的前沿研究提供支持,微软三年前为OpenAI打造了一台由数万个A100 GPU组成的大型AI超级计算机,成本或超过数亿美元。微软还在60多个数据中心总共部署了几十万个推理GPU。

据微软Azure云业务的高管透露,爆火的OpenAI聊天机器人ChatGPT正是由这个AI超级计算机提供支持。当前微软正在打造更大、更复杂的超级计算机,为新模型训练和运行提供支持。

微软还在本周一宣布基于NVIDIA最新旗舰芯片H100 GPU和NVIDIA Quantum-2 InfiniBand网络互连技术,推出Azure最强大、可大规模扩展的AI虚拟机系列,以显著加速AI模型的开发。

微软对AI基础设施的芯片及前沿技术布局,对于应对大模型与生成式AI应用热潮、为更大规模的模型训练与部署提供算力支撑颇具参考价值。

一、ChatGPT成功背后的算力功臣:成本或超数亿美元

微软在2019年向OpenAI投资10亿美元时,同意为OpenAI建造一台大型顶尖超级计算机。当时,微软并不确定在其Azure云服务中构建这么大的东西,会不会对Azure本身造成影响。

OpenAI试图训练更多需要学习海量数据、拥有超大参数规模的AI模型,需要长期访问强大的云计算服务。为了应对这一挑战,微软必须想方设法将数万个NVIDIA A100 GPU串在一起,并改变其在机架上放置服务器的方式,以防止断电。

负责云计算和人工智能的微软执行副总裁Scott Guthrie不愿透露该项目的具体成本,但表示“可能大于”数亿美元

训练大型AI模型需要在一个地方连接大量连接的GPU,就像微软组装的AI超级计算机一样。

据微软Azure AI基础设施总经理Nidhi Chappell介绍,微软构建了一个可在非常大的范围内运行且可靠的系统架构,这就是让ChatGPT成为可能的原因。OpenAI总裁兼联合创始人说,与Azure共同设计超级计算机对于扩展苛刻的AI训练需求至关重要,使得OpenAI能在ChatGPT等系统上开展研究和调整工作。

现在,微软使用它为OpenAI构建的同一组资源来训练和运行自己的大型AI模型,包括上个月发布的新版Bing搜索机器人。

微软还将系统出售给其他客户,并已经在开发下一代AI超级计算机,这是它与OpenAI扩大交易、追加数十亿美元投资的一部分。

值得注意的是,AI超级计算机虽然是专为OpenAI打造的,但微软并没有把它设计成只能供一家企业使用的定制化设施。

“我们并没有将它们构建成定制的东西——它最初是作为定制的东西,但我们总是以一种通用化的方式来构建它,这样任何想要训练大型语言模型的人都可以利用同样的改进。”Guthrie在接受采访时说,“这确实帮助我们成为更广泛的AI云。”

除此之外,微软还部署了用于推理的GPU,这些处理器共有数十万个,分布在其60多个数据中心区域。

二、H100 GPU+先进网络互连,为生成式AI做好准备

微软周一宣布推出Azure最强大、可大规模扩展的AI虚拟机系列ND H100 v5 VM,支持从8到数千个NVIDIA H100 GPU,这些GPU通过NVIDIA Quantum-2 InfiniBand网络互连,能够显著提高AI模型计算速度。一些创新技术包括:

生成式AI应用正在迅速发展,微软对自己的AI基础设施非常有信心。微软Azure HPC+AI首席产品经理Matt Vegas说,大规模AI内置于Azure的DNA里,微软最初投资Turing等大型语言模型研究,并实现了在云上构建第一台AI超级计算机等工程里程碑,为生成式AI成为可能做好了准备。

在AI超级计算机的支撑下,微软一方面可以通过Azure服务直接为客户提供训练模型所需的资源,也可以通过Azure OpenAI服务让更广泛的客户用到大规模生成式AI模型的能力。也就是说,中小型公司可以通过获取云服务来解决算力资源不足的问题,不需要进行大量物理硬件或软件投资。

算力是一场持久仗。新版Bing仍处于预览阶段,微软逐渐从候补名单中添加更多用户。Guthrie的团队每天与大约20名随时准备修补bug的员工召开会议。该小组的工作是弄清楚如何使更多的计算能力快速上线,以及解决突然出现的问题。

当OpenAI或微软训练大型AI模型时,工作是一次性完成的。它分布在所有GPU上,在某些时候,这些单元需要在高吞吐量、低延迟网络中相互通信和共享工作。

对于AI超级计算机,微软已确保处理所有芯片之间通信的网络设备能够处理该负载,并且它必须开发能够充分利用GPU和网络设备的软件。微软已开发出可训练具有数万亿参数的模型的软件

由于所有机器同时启动,微软不得不考虑它们如何放置以及电源的位置。Guthrie打了个比方,如果不做这些权衡,你在数据中心遇到的情况就好比你在厨房同时打开微波炉、烤面包机和真空吸尘器时会遇到的状况。

Azure全球基础设施总监Alistair Speirs谈道,微软还必须确保它能够冷却所有机器和芯片。Guthrie说,微软将继续致力于定制服务器和芯片设计以及优化其供应链的方法,以尽可能地提高速度、效率和成本。

云服务依赖于数以千计的不同部件和项目,任何一个组件的延迟或供应短缺,都可能导致一切失败。最近,维修人员不得不应对电缆托盘短缺的问题。这种类似篮子的装置用来固定从机器上掉下来的电缆。因此他们设计了一种新的电缆桥架,微软可以自行制造或从某处购买。Guthrie说,他们还研究了如何压缩全球现有数据中心中尽可能多的服务器,这样就不必等待新建筑。

结语:正在打造下一代超级计算机

微软正通过应用十年的超级计算经验和支持最大的AI训练工作负载,来应对模型规模和复杂性呈指数级增长的趋势,为生成式AI进步奠定基础。

“现在让世界惊叹的模型是构建于我们几年前开始建造的超级计算机上的。新模型将构建于我们现在正在训练的新超级计算机上,这台计算机要大得多,而且会更加复杂。”Guthrie说。

您觉得本篇内容如何
评分

相关产品

CSMS 中科微感 人工智能+嗅觉传感器(AI-Nose) 气体传感器

中科微感逐步攻克了制约人工嗅觉传感发展的核心材料、硬件、算法等技术,开发出了以新型纳米敏感材料为基础,以微纳加工技术为支撑,以人工智能算法为核心的第一代 MEMS 基金属氧化物半导体原理的人工嗅觉传感器产这一产品将解决当前制约人工智能嗅觉技术与市场应用发展的关键问题:提供量产化的高一致、低成本、微型化的嗅觉传感器阵列硬件,以及提供标准化的人工智能+嗅觉气味感知软件平台,使客户能够快速构建和应用气味数据模型

XKCON 祥控 弹药库环境温湿度异常报警与智能监控系统 温湿度变送器

济南祥控自动化设备有限公司自主研发的XKCON祥控弹药库环境温湿度异常报警与智能监控系统采用物联网、传感器、大数据、人工智能等先进技术,能够对弹药库环境温湿度信息实现数字化、可视化管理。

山东美安 矿山电机车防追尾道岔口报警器 控制器及系统

煤矿用机车防追尾保护装置 机车防追尾保护装置是一种矿用人工智能保护装置、具有防追尾保护、无线触发沿途弯道语言保护、输出控制并记录等功能可广泛的使用在矿山井下、井上的运输机车上。

KEYENCE 基恩士 AI-1000C 图像匹配传感器

因此,人工智能系列能够在模式匹配的基础上对物体进行稳定的检测和识别,而这是基于强度或距离的传感器难以实现的。 基于强度或距离的传感器难以实现。

云传物联 河道水质浮标在线PH监测传感器系统设备 便携式水质检测仪

电子水质监测解决方案利用信息控制与处理、人工智能、自动化、物联网及多媒体等技术,集水质参数在线采集、无线传输、智能处理、超限报警、远程管理等功能于一体的水质监测解决方案

DINSEE 鼎信智慧科技 DX-WPS100-SP2... CMOS图像传感器

针对传统配电线路人工巡检效率低、周期长等问题,鼎信智慧结合物联网、红外热成像、人工智能等技术,研发了配电线路图像视频双光球机在线监测装置。

大立科技 DM60-W3 红外体温快速筛检

红外热成像体温快速筛检系统DM60-W3系列为384*288/640*480像素,人工智能算法,远距离、大场景测温更精准。

Maike 迈科光电 MK-PB4023PS&ALS&VC-A01E 接近传感器

EM30918、STK3311-X、STK3321、APDS-9900 ,9901、TMD2772WA、RPR0521RS、VCNL4035X01 WH4530A),广泛应用于平板电脑、工控显示类产品、智能家居、AI人工智能等场景,联想笔记本电脑,九安医疗的测温仪,微步数码的平板等都应用了我们这颗传感器,已量产批量出货。

Handsome 翰德圣 HDSELM V1.1 安全传感器和系统

设备全生命周期管理平台融合的物联网、云计算、大数据、人工智能、优化制造、再制造六项主流技术,通过云端模块化的架构可为企业灵活管理设备,不仅可以随时随地了解设备运行状态、发现故障隐患,还能够通过大数据分析指导企业维修

评论

您需要登录才可以回复|注册

提交评论

广告

智东西

这家伙很懒,什么描述也没留下

关注

点击进入下一篇

ChatGPT火了,中国人工智能圈有点上火

提取码
复制提取码
点击跳转至百度网盘