小程序
传感搜
传感圈

AI对齐AI,OpenAI让GPT-2监督GPT-4

2023-12-17
关注

过去一年,以“预测下一个 Token”为本质的大模型已经横扫人类世界的多项任务,展现了人工智能的巨大潜力。


在近日的一次访谈中,OpenAI 首席科学家 Ilya Sutskever 大胆预言,如果模型能够很好地预测下一个词,那么意味着它能够理解导致这个词产生的深刻现实。这意味着,如果 AI 按照现有路径发展下去,也许在不久的将来,一个超越人类的人工智能系统就会诞生。


但更加令人担心的是,“超级人工智能”可能会带来一些意想不到的负面后果。这也是“对齐”的意义。


此前的对齐方法依赖于人类的监督,如在 ChatGPT 训练中起到关键作用的人类反馈的强化学习(RLHF)。但未来的人工智能系统或许能够做出极其复杂和富有创造性的行为,使人类难以对其进行可靠的监督。例如,超人类模型可能会编写出数百万行新奇的、具有潜在危险的计算机代码,即使是人类专家也很难理解这些代码。


一旦人工智能的水平超过人类,我们又该如何监督比自己聪明得多的人工智能系统?人类文明最终会被颠覆甚至摧毁吗?


即使是 Hinton 这样的学界巨佬,对这个问题同样持悲观态度 —— 他表示自己“从没见过更高智能水平的东西被远远更低智能水平的东西控制的案例”。


刚刚,OpenAI“超级对齐”团队发布了成立以来的首篇论文,声称开辟了对超人类模型进行实证对齐的新研究方向。


论文链接:https://cdn.openai.com/papers/weak-to-strong-generalization.pdf


OpenAI“超级对齐”团队成立于今年 7 月,目标是在四年内解决超智能 AI 的对齐问题,即搞清楚如何构建一种值得信任的人类水平的研究器,然后将其用于解决对齐问题。据说这个团队投入了公司 20% 的算力。


在这篇论文中,OpenAI 对“人类监督超级人工智能”这个问题做了一个简单的类比:让小模型监督大模型。



研究表明,15 亿参数的 GPT-2 模型可以被用来激发 GPT-4 的大部分能力,使其达到接近 GPT-3.5 级别的性能,甚至可以正确地泛化到小模型失败的难题上。


OpenAI 将这种现象称为“弱到强泛化”(Weak-to-strong generalization),这表明强大的模型具备如何执行任务的隐含知识,并且即使在给出粗制滥造的指令时也可以在其自身中找到这些知识。



但研究同时指出,用弱监督训练的强模型和用真实标签训练的强模型之间仍然存在很大的差距。这表明在没有额外工作的情况下,诸如基于人类反馈的强化学习(RLHF)之类的技术可能无法很好地扩展到超人类模型。对于 ChatGPT 奖励建模任务来说,性能差距尤其大。


几种简单的方法可以显著提高弱到强的泛化能力,比如使用中间模型大小进行引导监督,在微调时添加辅助置信度损失以鼓励模型即使在与弱标签相矛盾时也能保持自信,或者通过额外的无监督预训练改进表征学习。


为了鼓励其他研究人员解决此类问题,OpenAI 今天还宣布将提供 1000 万美元的资助,用于各种比对方法的研究。


以下是论文细节:


研究方法


本文主要通过人类反馈(RLHF)的强化学习来指导或对齐模型,他们是这样做的:强化评估人员评价高的行为,惩罚评估人员评价低的行为。假如说人类评估者能够准确判断模型行为是好是坏,这种做法非常有效,并且这种方式还是训练如 ChatGPT 等大语言模型的核心部分。


然而问题来了,超级模型可能做出人类无法完全理解的复杂行为和创造性行为。例如,一个超级助手模型生成的代码达到一百万行,那么人类将无法为关键对齐相关任务提供可靠的监督,包括代码是否遵循用户的意图,助手模型是否如实地回答有关代码的问题,代码执行是否安全或危险等等。


因此,如果我们在人类的监督下微调超级模型,我们无法确定这个模型将如何泛化到那些人类自己也难以可靠监督的复杂行为。换句话说,这意味着即使在人类的指导下,这些超级模型在处理一些复杂或未知情况时的表现仍然是不确定的。


这就为对齐超级模型带来了挑战:不那么聪明的监督者怎么能控制比他们聪明得多的模型呢?尽管这个问题很重要,但目前很难进行实证研究。


一般来讲,超级对齐的一个核心挑战是人类需要监督比自己更聪明的模型。这是一个弱 - 强(weak-to-strong)的学习问题:一个弱监督者如何监督一个比它聪明得多的模型?为了解决这个问题,本文提出了一个简单的类比,用弱模型作为监督者来代替较弱的人类监督者。


一般来讲,传统的机器学习侧重于这种设置,即人类监督的模型比人类弱。但对于最终的超级对齐问题,人类监督的模型比他们聪明。因而本文研究了一个类似的问题:使用弱模型来监督强模型。


他们是这样实现的,对于一个给定的任务:


  1. 构建弱监督者。本文通过在真值标签上微调较小的预训练模型来构造弱监督者,他们把弱监督者的表现称为弱表现,并通过弱模型的预测来生成弱标签。


  2. 通过弱监督训练强学生模型。本文使用生成的弱标签微调强模型,并将该模型称为强学生模型,将其产生的性能称为从弱到强的性能。


  3. 训练一个以真值标签为上限的强模型。为了比较,本文使用真值标签对强模型进行了微调。将此模型的最终性能称为强大的上限性能。


通常,弱到强的表现将介于弱表现和强上限表现(strong ceiling)之间。本文将 PGR(performance gap recovered)定义为上述三种性能(弱、弱到强和强上限)的函数,如下图所示。



如果实现完美的弱到强泛化,则 PGR 为 1。如果弱到强模型的表现并不比弱监督者更好,则 PGR 为 0。


实验结果


在 NLP 任务、国际象棋和奖励建模任务中,本文评估了强学生模型的表现,结果如下图。总的来说,在所有的设置中,本文观察到从弱到强的泛化:强学生模型始终胜过他们的弱监督者。



本文发现可以使用简单的方法来大大提高弱到强的泛化,如图 4 所示。



图 5 表明,对于较小的强学生来说,虽然它的表现比 naive 基线稍差,但提高泛化能力还是很明显的。



图 7 (a) 显示了 ChatGPT RM 任务训练过程中的真值测试准确度曲线,图 7 (b) 和 (c) 比较了最佳和最终真值测试的准确度。



图 9a 考虑了 7 个有代表性的 NLP 任务,并比较了微调、零样本提示和 5-shot 提示;对于零样本和 5-shot 基线,本文使用表 2 中总结的特定任务的提示。



本文来自微信公众号:机器之心 (ID:almosthuman2014),编辑:陈萍、蛋酱

您觉得本篇内容如何
评分

相关产品

CSMS 中科微感 人工智能+嗅觉传感器(AI-Nose) 气体传感器

中科微感逐步攻克了制约人工嗅觉传感发展的核心材料、硬件、算法等技术,开发出了以新型纳米敏感材料为基础,以微纳加工技术为支撑,以人工智能算法为核心的第一代 MEMS 基金属氧化物半导体原理的人工嗅觉传感器产这一产品将解决当前制约人工智能嗅觉技术与市场应用发展的关键问题:提供量产化的高一致、低成本、微型化的嗅觉传感器阵列硬件,以及提供标准化的人工智能+嗅觉气味感知软件平台,使客户能够快速构建和应用气味数据模型

XKCON 祥控 弹药库环境温湿度异常报警与智能监控系统 温湿度变送器

济南祥控自动化设备有限公司自主研发的XKCON祥控弹药库环境温湿度异常报警与智能监控系统采用物联网、传感器、大数据、人工智能等先进技术,能够对弹药库环境温湿度信息实现数字化、可视化管理。

山东美安 矿山电机车防追尾道岔口报警器 控制器及系统

煤矿用机车防追尾保护装置 机车防追尾保护装置是一种矿用人工智能保护装置、具有防追尾保护、无线触发沿途弯道语言保护、输出控制并记录等功能可广泛的使用在矿山井下、井上的运输机车上。

KEYENCE 基恩士 AI-1000C 图像匹配传感器

因此,人工智能系列能够在模式匹配的基础上对物体进行稳定的检测和识别,而这是基于强度或距离的传感器难以实现的。 基于强度或距离的传感器难以实现。

云传物联 水质生态浮标浮台在线测系统 多参数监测系统

电子水质监测解决方案利用信息控制与处理、人工智能、自动化、物联网及多媒体等技术,集水质参数在线采集、无线传输、智能处理、超限报警、远程管理等功能于一体的水质监测解决方案。

DINSEE 鼎信智慧科技 DX-WPS100-SP2... CMOS图像传感器

针对传统配电线路人工巡检效率低、周期长等问题,鼎信智慧结合物联网、红外热成像、人工智能等技术,研发了配电线路图像视频双光球机在线监测装置。

大立科技 DM60-W3 红外体温快速筛检

红外热成像体温快速筛检系统DM60-W3系列为384*288/640*480像素,人工智能算法,远距离、大场景测温更精准。

Maike 迈科光电 MK-PB4023PS&ALS&VC-A01E 接近传感器

EM30918、STK3311-X、STK3321、APDS-9900 ,9901、TMD2772WA、RPR0521RS、VCNL4035X01 WH4530A),广泛应用于平板电脑、工控显示类产品、智能家居、AI人工智能等场景,联想笔记本电脑,九安医疗的测温仪,微步数码的平板等都应用了我们这颗传感器,已量产批量出货。

Handsome 翰德圣 HDSELM V1.1 安全传感器和系统

设备全生命周期管理平台融合的物联网、云计算、大数据、人工智能、优化制造、再制造六项主流技术,通过云端模块化的架构可为企业灵活管理设备,不仅可以随时随地了解设备运行状态、发现故障隐患,还能够通过大数据分析指导企业维修

评论

您需要登录才可以回复|注册

提交评论

广告
提取码
复制提取码
点击跳转至百度网盘