阿里巴巴开源深度学习训练框架EPL 可支持10万亿参数超大模型-新利18国际娱乐

阿里巴巴开源深度学习训练框架EPL 可支持10万亿参数超大模型

　　3月4日消息，阿里巴巴宣布完全开源支持10万亿模型的自研分布式深度学习训练框架EPL(Easy Parallel Library，原名whale)，进一步完善深度学习生态。

　　EPL由阿里云机器学习平台PAI团队自主研发，PAI是面向开发者和企业的机器学习/深度学习工程平台，提供包含数据标注、模型构建、模型训练、编译优化、推理部署在内的AI开发全链路服务，内置140多种优化算法，具备丰富的行业场景插件，为用户提供低门槛、高性能的云原生AI工程化能力。

　　EPL是PAI团队一次面向大规模深度学习分布式自动化训练的探索，EPL希望能够简化深度学习模型从单机训练到分布式开发调试的流程。EPL通过对不同并行化策略进行统一抽象、封装，在一套分布式训练框架中支持多种并行策略，并进行显存、计算、通信等全方位优化来提供易用、高效的分布式训练框架。

　　EPL适合不同场景的模型，在阿里巴巴内部已经支持图像、推荐、语音、视频、自然语言、多模态等多样性的业务场景。同时，EPL也支持不同规模的模型，最大完成了10万亿规模的M6模型训练，相比之前发布的大模型GPT-3，M6实现同等参数规模能耗仅为其1%。最新测试结果显示，使用EPL的流水+数据并行对Bert Large模型进行优化，相比于数据并行，训练速度提升了66%。

　　阿里云资深技术专家九丰表示，“近些年，随着深度学习的火爆，模型的参数规模飞速增长，同时为训练框架带来更大挑战。为应对这个问题，我们研发了EPL，EPL功能也随着业务需求的迭代逐渐完善。未来，我们将在软硬件一体优化、全自动策略探索等几个探索性方向上持续投入精力。今天，我们将EPL完全开源，希望和深度学习训练框架的开发者或深度学习从业者之间有更多更好的交流和共建，持续完善深度学习生态。”

您觉得本篇内容如何

评分

声明：转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益，请与我们联系，我们将及时更正、删除，谢谢。

您需要登录才可以回复登录|注册

提交评论

阿里巴巴开源深度学习训练框架EPL 可支持10万亿参数超大模型

评论

热门资讯

科技快报网

相关阅读

美国芯片业面临重大人才缺口

消息称苹果继AMD后成为台积电SoIC半导体封装大客户

安森美收购SWIR传感器公司，增强智能传感器产品组合

三星开发新的芯片封装技术FOWLP-HPB，以防止AP过热

安森美宣布收购CQD传感器技术公司SWIR Vision Systems

诺思与博通达成全面和解及专利交叉许可

总投资300亿元，三安意法碳化硅项目主通线倒计时

玻芯成玻璃基半导体特色工艺先导线项目开工

消息称英伟达今年将交付超100万颗H20 AI芯片

半导体产业迎爆发新风口，存储芯片厂商重金“下注”

科技快报网

点击进入下一篇