S
sadscv
编辑于
•
发布于
上面提到的dropout其实是一个正则化技巧,在文章中还用到了另一个正则化技巧,L2范数正则化
对于一个向量来说,L2系数就是向量中每个元素的平方和。作者在这里给定了一个值s,如果一次梯度反向传播过后,权重向量的L2范数大于s的话,就对整个权重进行缩放,使得它的l2范数正好等于s
slide12
好了, 整个网络的结构基本就介绍完了,下面来介绍一下数据集。 slide13 超参数选择。 slide 14
实验结果
slide15 结果与讨论。 作者提出了几点想法 第一点是关于单通道和多通道 最初作者认为多通道能够防止过拟合,保证学习到的向量不会偏离原始向量太多。因为应该能取得更好的效果,但是结果显示并不如作者所希望的。因此他提出了自己的一些idea.在正则化工作上作文章,比如不用多通道,而是用单通道在原本静止的词向量之上添加新的维度,固定静止的维度而使得这些动态维度上的参数可以被回传的梯度调整。
第二点是静止与动态词向量之前的相同和不同
首先在原始的词向量中good和bad是最接近的,因为两个词的上下文几乎相同,所以很容易被另一个词给替换掉而不影响语言的通顺和流畅,但是在经过调整后的词向量中good不见了, 还有就是原本与good最相似的是great,而调整过后的则是nice,decent,而这些在英文中更常用来表达情感。 另外对于随机生成的词,在原本中是没有什么意义的,微调整后让它们更加能够表达情感。 在网络学到了感叹号与一些表达情感的词的联系,而逗号和一些连接词的联系也被学到了。
阅读 2
评论 0