RNN和LSTM弱！爆！了！注意力模型才是王道

时间：2018-05-02 20:33|来源：未知|编辑： 网友评论

大数据文摘作品

　　编译：晚君、笪洁琼、钱天培

　　循环神经网络（RNN），长短期记忆（LSTM），这些红得发紫的神经网络——是时候抛弃它们了！

　　LSTM和RNN被发明于上世纪80、90年代，于2014年死而复生。接下来的几年里，它们成为了解决序列学习、序列转换（seq2seq）的方式，这也使得语音到文本识别和Siri、Cortana、Google语音助理、Alexa的能力得到惊人的提升。

　　另外，不要忘了机器翻译，包括将文档翻译成不同的语言，或者是神经网络机器翻译还可以将图像翻译为文本，文字到图像和字幕视频等等。

　　在接下来的几年里，ResNet出现了。ResNet是残差网络，意为训练更深的模型。2016年，微软亚洲研究院的一组研究员在ImageNet图像识别挑战赛中凭借惊人的152层深层残差网络（deep residual networks），以绝对优势获得图像分类、图像定位以及图像检测全部三个主要项目的冠军。之后，Attention（注意力）模型出现了。

　　虽然仅仅过去两年，但今天我们可以肯定地说：

　　“不要再用RNN和LSTM了，它们已经不行了！”

　　让我们用事实说话。Google、Facebook、Salesforce等企业越来越多地使用了基于注意力模型（Attention）的网络。

　　所有这些企业已经将RNN及其变种替换为基于注意力的模型，而这仅仅是个开始。比起基于注意力的模型，RNN需要更多的资源来训练和运行。RNN命不久矣。

　　为什么

　　记住RNN和LSTM及其衍生主要是随着时间推移进行顺序处理。请参阅下图中的水平箭头：

RNN中的顺序处理

　　水平箭头的意思是长期信息需在进入当前处理单元前顺序遍历所有单元。这意味着其能轻易被乘以很多次<0的小数而损坏。这是导致vanishing gradients（梯度消失）问题的原因。

　　为此，今天被视为救星的LSTM模型出现了，有点像ResNet模型，可以绕过单元从而记住更长的时间步骤。因此，LSTM可以消除一些梯度消失的问题。

LSTM中的顺序处理

　　从上图可以看出，这并没有解决全部问题。我们仍然有一条从过去单元到当前单元的顺序路径。事实上，这条路现在更复杂了，因为它有附加物，并且忽略了隶属于它上面的分支。

　　毫无疑问LSTM和GRU（Gated Recurrent Uni，是LSTM的衍生）及其衍生能够记住大量更长期的信息！但是它们只能记住100个量级的序列，而不是1000个量级，或者更长的序列。

　　还有一个RNN的问题是，训练它们对硬件的要求非常高。另外，在我们不需要训练这些网络快速的情况下，它仍需要大量资源。同样在云中运行这些模型也需要很多资源。

　　考虑到语音到文本的需求正在迅速增长，云是不可扩展的。我们需要在边缘处进行处理，比如Amazon Echo上处理数据。

　　该做什么？

　　如果要避免顺序处理，那么我们可以找到“前进”或更好“回溯”单元，因为大部分时间我们处理实时因果数据，我们“回顾过去”并想知道其对未来决定的影响（“影响未来”）。在翻译句子或分析录制的视频时并非如此，例如，我们拥有完整的数据，并有足够的处理时间。这样的回溯/前进单元是神经网络注意力(Neural Attention)模型组。[page]分页标题[/page]

　　为此，通过结合多个神经网络注意力模型，“分层神经网络注意力编码器”出现了，如下图所示：

分层神经网络注意力编码器

　　“回顾过去”的更好方式是使用注意力模型将过去编码向量汇总到语境矢量 CT中。

　　请注意上面有一个注意力模型层次结构，它和神经网络层次结构非常相似。这也类似于下面的备注3中的时间卷积网络（TCN）。

　　在分层神经网络注意力编码器中，多个注意力分层可以查看最近过去的一小部分，比如说100个向量，而上面的层可以查看这100个注意力模块，有效地整合100 x 100个向量的信息。这将分层神经网络注意力编码器的能力扩展到10,000个过去的向量。

　　这才是“回顾过去”并能够“影响未来”的正确方式！

　　但更重要的是查看表示向量传播到网络输出所需的路径长度：在分层网络中，它与log（N）成正比，其中N是层次结构层数。这与RNN需要做的T步骤形成对比，其中T是要记住的序列的最大长度，并且T >> N。

　　跳过3-4步追溯信息比跳过100步要简单多了！

　　这种体系结构跟神经网络图灵机很相似，但可以让神经网络通过注意力决定从内存中读出什么。这意味着一个实际的神经网络将决定哪些过去的向量对未来决策有重要性。

　　但是存储到内存怎么样呢？上述体系结构将所有先前的表示存储在内存中，这与神经网络图灵机（NTM）不同。这可能是相当低效的：考虑将每帧的表示存储在视频中——大多数情况下，表示向量不会改变帧到帧，所以我们确实存储了太多相同的内容！

　　我们可以做的是添加另一个单元来防止相关数据被存储。例如，不存储与以前存储的向量太相似的向量。但这确实只是一种破解的方法，最好的方法是让应用程序指导哪些向量应该保存或不保存。这是当前研究的重点。

　　看到如此多的公司仍然使用RNN/LSTM进行语音到文本的转换，我真的十分惊讶。许多人不知道这些网络是如此低效和不可扩展。

　　训练RNN和LSTM的噩梦

　　RNN和LSTM的训练是困难的，因为它们需要存储带宽绑定计算，这是硬件设计者最糟糕的噩梦，最终限制了神经网络解决方案的适用性。简而言之，LSTM需要每个单元4个线性层（MLP层）在每个序列时间步骤中运行。

　　线性层需要大量的存储带宽来计算，事实上，它们不能使用许多计算单元，通常是因为系统没有足够的存储带宽来满足计算单元。而且很容易添加更多的计算单元，但是很难增加更多的存储带宽（注意芯片上有足够的线，从处理器到存储的长电线等）。

　　因此，RNN/LSTM及其变种不是硬件加速的良好匹配，我们在这里之前和这里都讨论过这个问题。一个解决方案将在存储设备中计算出来，就像我们在FWDNXT上工作的一样。
　　总而言之，抛弃RNN吧。注意力模型真的就是你需要的一切！
本文首发于微信公众号：大数据文摘。文章内容属作者个人观点，不代表和讯网立场。投资者据此操作，风险请自担。

TAG

相关阅读：

AMD助力微软Windows 11 为用户带来强大、可靠的计算能力2021-10-09 16:20

游戏玩家为之疯狂！Chinajoy2021 AMD展台那些火爆的瞬间2021-08-02 15:39

全场最佳 AMD Chinajoy2021展台圆满收官2021-08-02 15:38

AMD 锐龙5000G系列处理器正式亮相Chinajoy20212021-08-02 11:50

极速制胜制霸游戏 AMD携多款游戏神器扬威Chinajoy2021-08-02 11:44

央视《新闻联播》头条聚焦铁建重工，聚力攻克“卡脖子”技术难题2021-03-22 11:08

刚刚！我又上央视新闻联播头条了！2021-03-22 11:04

中国电科（3月1日-3月7日）要闻回顾 | 资讯轻阅读2021-03-22 10:47

我国将建第一个国家公园：为何是三江源2021-03-22 10:43

美国硅谷上演“大逃亡”：郊区成科技精英避难所2021-03-22 10:41

滚动播报

19:542025中国隐形独角兽企业沙龙（福州站）暨福建省隐形独角兽企业发展研讨会

16:01携手共创可持续未来：vivo发布2024可持续发展报告，以科技之力绘就共

17:05被师傅鸽到崩溃？十年卫浴老板血泪总结：找对帮手太重要！

14:43北京金海汇成投资有限公司的全球资产配置逻辑

14:26入选上海智库报告文库，第一财经研究院“小巨人”调研专著出版

21:03京东科技赋能中原企业，80家企业已成功入驻产业园

18:36首次上榜《财富》中国500强，盈峰集团的产业赋能牛在哪？

10:08孙宇晨的而立之年：争议未远，传奇已立

15:27北京金海汇成投资有限公司谈资产配置

12:17寻找自然受益型经济10万亿美元的商机 ——第一财经第十四度携手达沃斯举办

12:43燃情“苏超”！苏州队VS扬州队精彩上演！雪中飞助力苏州队3:0夺得首胜!

17:23卷不赢的618，中国商家在东南亚集体“回血”

13:57“基于北斗与遥感的数字应用产业互联关键技术及应用”科技成果评价会在京成功

13:39三贯穿定基调，五纵横拓图，六点连线筑生态——燕京510以全域营销战略登顶

10:05由新者胜至行者达第三届中国企业碳中和表现榜正式发布

09:53相关专家领导赴四川嘉好变频供水设备科技有限公司考察调研

21:20甘露特钠胶囊多地断供？谁来续上患者的记忆

08:59站酷×北京邮政×微博强强联手！“玩具杂货铺”玩转儿童节艺术营销

14:13再破圈！央视端午晚会新松大负载机器人“执手”专业舞者柔美共舞，人机“无间

12:30盼星星，盼月亮，就盼九期一

09:26双线狂欢引爆510盛夏：狮王“世界风味”VS燕京9號“社区烟火”

14:35如何借力抖音７亿日活？京东（郑州）基地手把手教电商企业数字化转型

16:35150+项专利死磕滤芯，云米引领家庭饮水进入矿泉时代

10:35必有人，重写爱与浪漫宝珀Ladybird贝蒂女士系列

10:34宝珀Ladybird贝蒂女士系列钻石舞会炫彩腕表焕新演绎尊贵皇家紫色

10:36HTX携手HTX DAO共庆BTC披萨节，开启Web3全球化共识新篇章

10:08化学工业出版社一行到访外研在线调研出版数字化转型路径

21:31BTC披萨节遇上TRUMP晚宴，HTX送出百万USDT狂欢福利

16:09HTX“火星计划特别版”新晋候选人出炉，用户太空之旅进入冲刺阶段

13:502025第四届石油石化装备产业科技大会暨科技创新成果展览会成功召开

新闻排行榜

产经聚焦被师傅鸽到崩溃？十年卫浴老板血泪总结：找对帮

产经聚焦京东科技赋能中原企业，80家企业已成功入驻产

产经聚焦首次上榜《财富》中国500强，盈峰集团的产业

产经聚焦寻找自然受益型经济10万亿美元的商机 ——第

产经聚焦燃情“苏超”！苏州队VS扬州队精彩上演！雪中

产经聚焦由新者胜至行者达第三届中国企业碳中和表现

产经聚焦再破圈！央视端午晚会新松大负载机器人“执手”

产经聚焦150+项专利死磕滤芯，云米引领家庭饮水进入

产经聚焦必有人，重写爱与浪漫宝珀Ladybird

产经聚焦宝珀Ladybird贝蒂女士系列钻石舞会炫彩