None
slide8 卷积 什么是卷积,用动态图就很好理解了,卷积就是一个原始函数在一个被称作卷积核或者叫过滤器的函数的作用下,生成第三个函数的一种操作。
slide 9 神经网络结构图。
这就是作者在网络结构图示意图。他这里有一句子,wait for the video and don't rent it ,整个句子被表示成一个n乘以k的矩阵,n是句子长度,k 是词向量的维度。这就是cnn的输入层。然后,它的输入经过卷积层。这里面有很多个过滤器,或者叫卷积核。在NLP里面卷积核的宽度都是固定为词向量的维度,但是高度则对应着其滑动窗口大小。比如说这个红色的卷积核就是一个bigram filter . 从上往下移动到最后。如果句子的词数量太少小于窗口大小的话,那么我们就在多出的地方补0。然后每个过滤器对输入作用之后都生成一个feature maps.对它进行max-over-time池化操作。取出其中的最大值作为这个过滤器得到的特征。最后送入一个全连接神经网络去进行计算输出。
slide 10 这里作者提到了一些技巧,比如说词向量的拼接,在上一张图中句子是用一个矩阵表示的,卷积核也是用一个nk的矩阵表示 ,但是在实际操作中会把一个窗口内的词向量拼接起来,组成一个nk长度的一维向量。然后卷积核也是用一个同样长度的向量去表示,这样子做的好处就是方便同时进行多卷积核以及多输入的矩阵运算,提高计算效率,因为我们知道计算机在进行批量输入的矩阵运算要比循环进行单个输入要快很多倍。
另一个技巧就是dropout.什么是dropout.简单地讲就是随机丢弃网络中的参数w,在这里面就是在训练过程中按照p%的概率随机地将参数设置成0.丢弃掉这部分隐层单元。具体是怎么做到的呢?就是创建一个服从概率为P伯努力分布的掩码向量r,让之前得到的特征z与r做一个逐点乘积,英文叫point wise,在神经网络反向传播梯度的时候,梯度也只会通过这些没有被掩盖掉的参数。