《科创板日报》11月27日讯(记者 黄心怡)语料数据是大模型训练的重要“燃料”,有助于大模型更好地适配实际的应用场景。业内人士普遍认为,高质量的中文语料对于大模型在各行各业的应用十分关键。
在2023全球数商大会“数据要素市场与大模型语料库论坛”暨中国大模型语料数据联盟开放日上,中国大模型语料数据联盟迎来了第四批新成员。
今年7月6日,中国大模型语料数据联盟于世界人工智能大会开幕式上宣布成立。此次新加入的成员包括上海市新能源汽车公共数据采集与监测研究中心、华院计算技术(上海)股份有限公司、星环信息科技(上海)股份有限公司、上海市人工智能行业协会、上海稀宇科技有限公司、上海四维图新科技股份有限公司、上海世纪出版(集团)有限公司、上海第二工业大学、上海市人民检察院、瑞因凡(上海)智能科技有限公司、北京晴数智慧科技有限公司、北京清博智能科技有限公司。
同时,上海人工智能实验室和人民网两家联盟发起单位正式揭牌成立“中国大模型语料数据联盟安全治理专委会”。
上海人工智能实验室生态中心负责人、合作交流与知识产权部部长王宇表示,中文的数据语料在OpenAI领域中大概只占到非常少的比例量,90%以上都是英文的。那就意味着未来中文语料的稀缺,对大模型产业发展有巨大的影响。此外,大模型未来跟意识形态紧密相关。因此,数据需要有安全治理的体系。这也是成立中国大模型语料数据联盟安全治理专委会的初衷。
上海人工智能实验室治理研究中心副主任王迎春表示,该专委会希望推动一些工作,包括共建超大规模的高质量安全可信的语料库、
“一是安全维度的评测数据,比如利用监管的要求,共同设计更全面系统的、更全维度的框架,像涉政、涉法律、涉伦理等。如果对这些维度进行精准标注,也许有上百个,甚至上千个类别;二是对于评测的方法和多种工具的方法,要立体的来做这个事情;三是开源测评数据的共建,打造一个大规模的、高难度的、广泛覆盖的细颗粒度标注的中国安全评测数据集。此外,还有安全可信的训练数据,比如构建海量规模,覆盖多语种的大模型训练及安全对齐的语料数据集。”
上海数据交易所市场发展部副总经理章健介绍,当前大模型行业的语料发展,依然存在一些痛点。包括:语料库的供应不足,特别在垂直细分领域,语料有提供共享、免费下载的,量虽然大,质量却不高。“我们在追求语料数量增长的同时,也要重视质量,是不是高质量的语料数据。”
同时,在某些特定的领域,像视频等多模态的项目存在语料的多样性匮乏。此外,还要推动语料库标准的建设,包括分类分级,把整个关于数据语料的行业能够纳入到更有序健康发展的轨道。
今年5月,星环科技发布了金融行业大模型“无涯”,是一款面向金融量化领域、超大规模参数的生成式大语言模型。星环科技联合创始人、技术副总裁刘汪根在会上表示,目前无涯大模型在金融领域对上市公司多维度的分析,包括财报分析、语言分析已经卓有成效,可以对规范标准进行非常好的问答。
财联社技术总监叶周介绍,财联社和星环已经联合打造了风险预警系统。“由财联社提供各种数据来源的储备和接入,星环提供聚类和风控的识别,再到财联社这边进行运营和计算,然后进行风险事件的入库。在这个基础之上,可以做离线分析或者告警预警、趋势预测等等一系列的应用。”
该系统的一大优势是采用混合模型。“现在家家户户都在讲大模型,但其实很多任务不需要用大模型来做。因为大模型无论在训练的效果或者对齐的难度,或者使用成本来说,还是比较高的。有些情况下用一些小模型,或者传统的机器学习的模型都能完成的不错。把这两者结合起来,就可以得到一个很好的效果。”叶周说。
对中国大模型领域未来行业格局,中金计算机首席分析师于钟海表示,术业有专攻在大型语言模型领域同样适用,而领域知识仍然是应用落地的重要前提和护城河。
“对于市场空间大的关键垂类,比如像金融、教育这些领域,就有足够有钱的客户,愿意花钱精细调优来获得一个更好的垂类模型。而泛化通用超大模型,则服务于中长尾的广泛需求。这就像中国的私有云和公有云格局是一样,中国私有云我甚至找不到一个很好的市场份额的图片,但公有云是一个很明显的规模效应,它会相对更集中一点。”