None

S
sadscv
发布于

slide 5

img ----socher rnn

回到之前的全连接DNN,全连接的DNN还存在着另一个问题——无法对时间序列上的变化进行建模。但是在语言、语音、手写输入识别等任务中,样本出现的时间顺序对于又非常重要。对于这种需求,就出现了另一种神经网络结构——循环神经网络RNN。 配图,介绍rnn 这是一个单隐层RNN,上面这层是隐层,下面的是输入。按照时间顺序,每输入一个字,网络就把字的向量乘以一个权重矩阵,隐层的向量,乘以另外一个权重矩阵,最后把两个结果相加送入激活函数,得到一个新的隐层输出,送给下一个 时间上的输入。

rnn是自然语言处理领域广泛使用的一个模型,在机器翻译,对话生成等任务上效果非常好。,也有不少人拿它去做分类任务, 但是呢,RNN也有它的一些弱点,比如RNN很难捕获独立的短语特征,什么意思呢?因为rnn它是整句输入的,前后序列的联系紧密。就是很难知道具体哪个短语对整句话的语义影响最大。拿CNN作为对比就很清楚了。 另外就是rnn因为它本身网络的结构特点,受到梯度消失的困扰。所以句子中靠后的词语对整句的语义影响会比较大。虽然后来有学者基于rnn 提出了改进,减轻了它的困扰。如lstm,gnu之类的新型循环神经网络,但是也有人也想出其它的思路,尝试用cnn去做,也就有了我们要讲的这篇论文。

阅读 2 评论 0

评论区

登录后发表评论

暂无评论

成为第一个发表评论的人吧!