小程序
传感搜
传感圈

一种更快、更经济的大型语言模型训练方法

2023-07-06
关注

美国斯坦福大学研究人员开发出大型语言训练方法Sophia。这是一种优化大型语言模型预训练的新方法,其速度是当前方法的两倍,同时具有更高经济性。研究人员采取两种策略来构建Sophia方法

第一个策略是曲率估计。曲率指的是模型程序的工作负载,如果能对其进行估计,将使得模型预训练更加高效。

第二个优化策略是“裁剪”,这解决了曲率估计不准确带来的效率降低问题。裁剪策略通过设置阈值或最大曲率估计来防止估计不准确。Sophia方法有望降低大型语言模型的训练成本,拓展大语言模型在实际场景中的应用。找有价值的信息,请记住Byteclicks.com

版权声明:除特殊说明外,本站所有文章均为 字节点击 原创内容,采用 BY-NC-SA 知识共享协议。原文链接:https://byteclicks.com/50600.html 转载时请以链接形式标明本文地址。转载本站内容不得用于任何商业目的。本站转载内容版权归原作者所有,文章内容仅代表作者独立观点,不代表字节点击立场。报道中出现的商标、图像版权及专利和其他版权所有的信息属于其合法持有人,只供传递信息之用,非商务用途。如有侵权,请联系 gavin@byteclicks.com。我们将协调给予处理。

  • 曲率
  • 经济模型
您觉得本篇内容如何
评分

评论

您需要登录才可以回复|注册

提交评论

提取码
复制提取码
点击跳转至百度网盘