Personal blog

Latest posts

Thoughts

NULL

感情充盈,幸福洋溢。 此去一别已是半年。时光荏苒,但初见之景仍历历在目。 能够成为精神支柱,这是认可,肯定。更是幸运。 难保会喜欢上我,表现得这么好,我自己都会喜欢上自己的吧。 只是回忆越美丽,就越要珍惜,不愿让新的去覆盖它。每个人的新鲜感都是有限的。 得不到的,才是最好的。也许会明白。

1 0
Read

今天是个好日子。

今天是个好日子。 http://blog.sciencenet.cn/blog-362400-673109.html 原来NLP还有这样一些人在这样做事情, 最近渐渐开始喜欢上历史了,一个人,一件事如何发展到今天这个地步,绝无一蹴而及的说法,都是慢慢演变过来地,当初他们的选择和进步成就了如今的这一切。读历史悠长地博文也像是在看史书,听故事的经历者亲身体会。从文革,知青下乡。到考研,再到远走异乡。一路过来,看到的除了当初那段国家命运,历史进程,还有个人的情爱悠悠,前途漫漫。回头再看,这就是人生。 NLP与ML和 DL的渊源,看看语言学家们是怎么样在如今的统计世界中游走。 当初不知怎么的就入...

1 0
Read

NULL

大半夜地睡不着觉,总想起来写点什么。浑浑噩噩地一天又过去了, 浑浑噩噩这词已经被我用烂了,也不差这一次。 本是私人博客,日记一般,老被别人看着挺别扭地,嫌麻烦又懒得换。搞得本有写点东西的欲望时,却又有所顾虑,不爽。 我为什么要不爽,或是说为什么要顾虑。凭什么。 俗人而已,堂堂正正地俗人。

1 0
Read

通常设置环境变量有三种方法:

通常设置环境变量有三种方法: 一、临时设置 export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-amd64 export PATH=$JAVA_HOME/:$PATH 二、当前用户的全局设置 打开~/.bashrc,添加行: export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-amd64 export PATH=$JAVA_HOME/:$PATH 使生效 source .bashrc 三、所有用户的全局设置 $ sudo gedit /etc/profile 在里面加入: export JAVA_...

1 0 Edited
Read

slide2:

slide2: 神经网络最早源于上世纪五六十年代一种叫作感知机的技术 感知机可以有 多个输入,x1,x2,x3, 每个输入对应有不同权重,当输入的加权和大于某个阈值那么感知机就会给出一个输出,否则为0。感知机可以用来做简单的分类。 非常简单的技术,所以它是有严重缺陷的,对于稍微复杂的函数或是线性不可分的问题就无能为力了,它本质上是一个线性分类器,对于线性不可分的问题迭代的过程中就会发生震荡,感知机就不会收敛, slide3: 到上世纪 80年代,多层感知机技术出现了。 解决了之前感知机的线性不可分问题,而且越多的层数也能让感知机拟合越复杂的情况。层数多了,也就变成了一个类似于网络的结果,...

1 0
Read

slide 4

slide 4 在神经网络中有这样一个特点,网络中的参数数量m小于样本数量n,这样才容易训练出有好的泛化效果的模型。如果网络中参数太多样本相对少了的话,网络非常容易过拟合,导致训练的时候效果很好,但是测试的时候效果并不理想。 在图中的全连接神经网络,所有的上下层每一个神经元之间都有连接,层数的增长就会带来参数数量膨胀的问题。 为了解决这个问题后来有学者就引入了今天要介绍的卷积神经网络CNN。 就像这副图中所看到的,把一副图片中的每个像素点作为输入层输入,之后先进过卷积操作,至于什么是卷积我们等下会讲到,得到一个feature map, 可以理解为特征的映射。然后再对它欠采样(有些书上也叫...

1 0
Read

slide 5

slide 5 img ----socher rnn 回到之前的全连接DNN,全连接的DNN还存在着另一个问题——无法对时间序列上的变化进行建模。但是在语言、语音、手写输入识别等任务中,样本出现的时间顺序对于又非常重要。对于这种需求,就出现了另一种神经网络结构——循环神经网络RNN。 配图,介绍rnn 这是一个单隐层RNN,上面这层是隐层,下面的是输入。按照时间顺序,每输入一个字,网络就把字的向量乘以一个权重矩阵,隐层的向量,乘以另外一个权重矩阵,最后把两个结果相加送入激活函数,得到一个新的隐层输出,送给下一个 时间上的输入。 rnn是自然语言处理领域广泛使用的一个模型,在机器翻译,对话...

1 0
Read

slide 6

slide 6 终于要讲到这篇文章了哈,先看摘要。为方便大家阅读我把摘要翻译了一下。 摘要 slide 7 from one-hot to word2vec. 摘要中提到的预先训练的词向量是什么。我这里再给大家简单介绍一下 在最初的时候,大家对于某个词的表示都使用所谓的one-hot表示方法, 《img one-hot》 假设语料里有10个不同的词,汽车被编号为4个词,那么汽车就被表示成这样 因为这样子表示的话,维度太多了,而且每个词只在它对应的维度中有长度。在其它的维度上长度都是0,这样子很难去发掘出词与词之间的关系。 后来人们就在想是不是可以对它进行改进,用更低的维度去表示一个词。经...

1 0
Read

slide8 卷积

slide8 卷积 什么是卷积,用动态图就很好理解了,卷积就是一个原始函数在一个被称作卷积核或者叫过滤器的函数的作用下,生成第三个函数的一种操作。 slide 9 神经网络结构图。 这就是作者在网络结构图示意图。他这里有一句子,wait for the video and don't rent it ,整个句子被表示成一个n乘以k的矩阵,n是句子长度,k 是词向量的维度。这就是cnn的输入层。然后,它的输入经过卷积层。这里面有很多个过滤器,或者叫卷积核。在NLP里面卷积核的宽度都是固定为词向量的维度,但是高度则对应着其滑动窗口大小。比如说这个红色的卷积核就是一个bigram filter...

1 0
Read

上面提到的dropout其实是一个正则化技巧,在文章中还用到了另一个正则化技巧,L2范数正则化

上面提到的dropout其实是一个正则化技巧,在文章中还用到了另一个正则化技巧,L2范数正则化 对于一个向量来说,L2系数就是向量中每个元素的平方和。作者在这里给定了一个值s,如果一次梯度反向传播过后,权重向量的L2范数大于s的话,就对整个权重进行缩放,使得它的l2范数正好等于s slide12 好了, 整个网络的结构基本就介绍完了,下面来介绍一下数据集。 slide13 超参数选择。 slide 14 实验结果 slide15 结果与讨论。 作者提出了几点想法 第一点是关于单通道和多通道 最初作者认为多通道能够防止过拟合,保证学习到的向量不会偏离原始向量太多。因为应该能取得更好的效果,...

1 0 Edited
Read