小程序
传感搜
传感圈

谷歌出手整顿大模型“健忘症”!反馈注意力机制帮你“更新”上下文,大模型无限记忆力时代将至 原创 精选

2024-05-12
关注
编辑 |伊风  出品 | 51CTO技术栈(微信号:blog51cto)                 谷歌终于出手了!我们将不再忍受大模型的“健忘症”。TransformerFAM诞生了,放话要让大模型拥有无限的记忆!话不多说,先来看看TransformerFAM的“疗效”。:      在处理长上下文任务时,图片大模型的性能有了显著提高!上图中,Isabelle、NarativeQA等任务要求模型理解和处理大量上下文信息,并对具体问题给出准确的答案或摘要。在所有任务中,FAM配置模型优于所有其他BSWA配置,可以看出,当超过一定点时,BSWA记忆段数量的增加并不能继续提高其记忆能力。看来FAM这个大模型的“忘不了”,在卷长文本、长对话的路上,确实有点东西。Google 据研究人员介绍,FAM是一个新颖的 Transformer 架构——Feedback Attention Memory,它利用反馈循环,使网络能够关注自己的潜在表达,促进 Transformer 内部工作记忆的出现,使其能够处理无限长的序列。简单地说,这种策略有点像我们手动对抗大模型“健忘症”的策略:在每次与大模型对话之前再次输入prompt。然而,FAM的做法更高级。当模型处理新的数据块时,它将将以前处理过的信息(即FAM)作为动态更新的上下文,并再次集成到当前的处理过程中。   这样,我们就可以很好地处理“爱忘事”的问题。更好的是,FAM的设计旨在保持与预训练模型的兼容性,而不需要额外的权重,尽管引入了反馈机制来维持长期的工作记忆。因此,理论上,大模型强大的记忆力并没有使其变得迟钝或消耗更多的计算资源。那么,如此精彩的TransformerFAM是如何被探索出来的呢?什么是相关技术?为什么TransformerFAM能从挑战中帮助大模型“记住更多”?滑动窗户的注意力(Sliding Window Attention, SWA)这一概念对TransformerFAM的设计至关重要。在传统的Transformer模型中,自注意力(Self-Attention)随着序列长度的增加,复杂性呈二次方增长,这限制了模型处理长序列的能力。电影《记忆碎片》(20000 年)主角患有顺行性遗忘症,这意味着他不记得过去了 10 几分钟内发生了什么,但他的长期记忆是完美的,他不得不把重要的信息纹在身上来记住它们。这与目前的大型语言模型相匹配(LLMs)论文中写道:“状态相似。   电影《记忆碎片》截图来源于网络滑动窗口的注意力(Sliding Window Attention),用于处理长序列数据的改进注意力机制。它受计算机科学中滑动窗口技术的影响(sliding window technique)的启发。处理自然语言(NLP)SWA允许模型在每个时间步骤中只关注输入序列的固定窗口,而不是整个序列。因此,SWA的优点是它能显著减少计算量。但是SWA有局限性,因为它的注意力受窗口大小的限制,这使得模型无法考虑窗口以外的重要信息。通过添加反馈激活,Transformerfam将上下文表示重新输入滑动窗口注意力的每个区块,实现集成注意力、区块级更新、信息压缩和全局上下文存储。通过反馈循环,在TransformerFAM中实现改进。具体来说,在处理当前序列块时,模型不仅会关注当前窗口中的元素,还会将之前处理过的上下文信息(即之前的“反馈激活”)作为额外的输入重新引入注意机制。这样,即使模型的注意窗口在序列上滑动,也能保持对以前信息的记忆和理解。因此,经过这一改进,TransformerFAM给了LLMS处理无限长度序列的潜力!2、有了工作记忆的大模型,继续向AGI迈进Transformerfam在研究中展现了积极的前景,这无疑将提高人工智能在理解和生成文本任务中的性能,如处理文档摘要、故事生成、问答等。同时,无论是智能助手还是情感陪伴,记忆力无限的人工智能听起来都更有吸引力。有趣的是,TransformerFAM的设计灵感来源于生物学中的记忆机制,这与AGI追求的自然智能模拟不谋而合。这篇论文是一个来自神经科学的概念——基于注意力的工作记忆——整合到深度学习领域的尝试。Transformerfam通过反馈循环将工作记忆引入大型模型,使模型不仅能记住短期信息,还能在长期序列中保持关键信息的记忆。   研究人员通过大胆的想象力,在现实世界和抽象概念之间假设了桥梁。随着Transformerfam等创新成果的不断涌现,技术瓶颈将一次又一次地突破,一个更智能、更互联的未来将慢慢向我们展开画面。请访问更多关于AIGC的信息: 51CTO AI.x社区 https://www.51cto.com/aigc/
您觉得本篇内容如何
评分

评论

您需要登录才可以回复|注册

提交评论

科技八卦

这家伙很懒,什么描述也没留下

关注

点击进入下一篇

安全光栅的“异常”状态通常包括哪些情况

提取码
复制提取码
点击跳转至百度网盘