7月7日,京东探索研究院院长、京东科技智能服务与产品部总裁何晓冬在2023世界人工智能大会上接受包括经济观察网在内的媒体采访时表示,京东在大模型上一直进行技术积累与布局,并深度结合了京东和产业的需求,已经陆续发布了十亿级、百亿级参数的大模型。今年的京东探索者科技大会上,京东即将发布千亿级参数大模型。
今年以来,大模型产品批量涌现,根据世界人工智能大会官方微信披露数据,2023年的大会上聚齐了三十多个大模型及相关产品。何晓冬认为,有市场竞争是好事,从2016年以来就感受到竞争非常激烈,这也说明市场有需求,其次,竞争中产生的技术和产品才是真正有生命力的。
何晓冬表示,当你的技术过了一个门槛以后,就会出现百花齐放的情景,各种各样的衍生形态都会出来,包括AI生成的绘画、数字人、人机对话等应用的出现,其实是因为基础的深度学习为代表的技术过了一个门槛。
何晓冬称京东大模型并不是马上就产生的,而是多年的铺垫。他提及2020年时京东就关注到了深度学习模型和语言生成,当时也开启了语言模型研发。当AI通用算法生成语言时免不了会生成事实错误内容,这样的情况在to C端或许可以调侃,但在电商领域是无法容忍的。“技术只有和现实世界的真实场景和产品产生紧密融合,才有可能真正产生AI落地的价值。”何晓冬说。
2021年京东针对零售电商场景中内容生成专业度不足问题,提出了十亿级K-PLUG算法模型,目前模型已经在京东的发现好货等场景广泛应用;2022年针对模型泛化性不足,京东提出了百亿级模型Vega;百亿级模型之后,今年京东再推出千亿级大模型。
何晓冬认为,大模型有它的好处,可以容纳多种技能,互相之间没有太多冲突,多个行业都可以覆盖。带来的困难是它的推理过程和部署成本会更高,因此对于一些特定场景,模型不一定求大。
何晓冬在本届人工智能大会的公开演讲中提及,京东言犀大模型在语言方向已经有大量的使用,写了超过30亿字的营销文案,使得营销文案生成做到了自动化和智能化。他表示,其它已有的应用领域还包括数字人直播、智能政务热线、银行数字员工等。
何晓冬认为,大模型的可靠性问题不解决,就无法在产业场景中广泛应用。他提到,为保证大模型的可靠性,三年以来京东在这方面进行了一系列改进,会把特定的行业知识注入文本训练中,比如要写新品文案推荐会让它参考产品说明书;另外,还会设计一个损失函数,出现错误或者重要的内容没被抓取到,就会有额外损失,有一个惩罚模型,最终让模型学会从可信的信源里获取基础知识。
目前大模型朝着通用大模型和垂直行业模型两个方向发展。何晓冬称,垂直行业模型训练成本和训练难度其实更高,但部署和应用成本会尽量降下来,因为直接关系到客户的成本。要做好行业模型,行业领域的Know-How非常重要,也需要足够的基础常识作背景,才能带来好的体验。