Post - None

slide 5

img ----socher rnn

回到之前的全连接DNN，全连接的DNN还存在着另一个问题——无法对时间序列上的变化进行建模。但是在语言、语音、手写输入识别等任务中，样本出现的时间顺序对于又非常重要。对于这种需求，就出现了另一种神经网络结构——循环神经网络RNN。配图，介绍rnn 这是一个单隐层RNN，上面这层是隐层，下面的是输入。按照时间顺序，每输入一个字，网络就把字的向量乘以一个权重矩阵，隐层的向量，乘以另外一个权重矩阵，最后把两个结果相加送入激活函数，得到一个新的隐层输出，送给下一个时间上的输入。

rnn是自然语言处理领域广泛使用的一个模型，在机器翻译，对话生成等任务上效果非常好。，也有不少人拿它去做分类任务，但是呢，RNN也有它的一些弱点，比如RNN很难捕获独立的短语特征，什么意思呢？因为rnn它是整句输入的，前后序列的联系紧密。就是很难知道具体哪个短语对整句话的语义影响最大。拿CNN作为对比就很清楚了。另外就是rnn因为它本身网络的结构特点，受到梯度消失的困扰。所以句子中靠后的词语对整句的语义影响会比较大。虽然后来有学者基于rnn 提出了改进，减轻了它的困扰。如lstm,gnu之类的新型循环神经网络，但是也有人也想出其它的思路，尝试用cnn去做，也就有了我们要讲的这篇论文。

None

评论区

暂无评论