Jesse Yule's Blog

word2vec

之前介绍了词袋模型，词袋模型是一种用向量表示句子的方法，像这样把一段文本转换成数值形式，就称为词嵌入（word embedding），除了词袋模型之外还有很多方法可以对文本进行转换，现在就来介绍另外一种非常著名的方法word2vec。

之前就提到了，通过词袋模型表示句子并没有考虑到词与词之间的联系，同时需要注意的是，如果我们用词袋法表示一个词，就相当于独热编码的方法，会产生一个稀疏矩阵。而我们现在要介绍的word2vec，首先，它可以表示一个词，而且可以用一个远比词汇表小的向量去表示，另一方面，它也考虑了词与词之间的关系，总的来说，就是比词袋法好。

word2vec的一个优点就是考虑了一个句子中词与词之间的关系，关于两个词的关系亲疏，word2vec从两个角度去考虑。第一，如果两个词意思比较相近，那么他们的向量夹角或者距离（比如欧几里得距离）是比较小的，举个例子，"king"用（0，1）表示，"queen"用（0，1.1）表示，那么他们的距离就是0.01，这就意味着两者是有很大关联的。第二，如果两个词意思比较接近，那么他们也有更大的可能出现在同一个句子中，甚至两个词可以相互替换句子的意思也不会改变。基于这两点，word2vec就提出了两种具体的语言模型：skip-gram模型和CBOW（连续词袋）模型。

首先以skip-gram为例详细分析一下word2vec的思想。

第一步是基于语料库构建词汇表（语料库就是句子集合，所以单词会重复，但是词汇表没有重复），比如我们从语料库中抽出10000个单词构建词汇表，然后会通过one-hot编码把单词表示成向量，这样每个单词都是一个10000维的向量，向量的每个维度的值只有0和1。

把单词表示成向量之后，skip-gram就构建了这么一个语言模型，一个单词出现在一个句子中，那么这个单词就是和它的上下文有联系的，因此，我们可以通过一个单词以及语料库，推导它最可能的上下文，比如我们有单词"是"，同时我们的语料库有"今天"、"开心"、"星期一"，如果我们要推断"是"的前后文，很容易就能知道答案是："今天是星期一"。

根据以上的语言模型，我们可以构建一个神经网络，它的输入就是一个单词的向量，输出就是词汇表中各个单词是前后文的单词的概率，一般来说，这个神经网络包含一个输入层、线性隐层（不含激活函数）、输出层（softmax函数）。通过训练我们的模型，我们就能得到一个能够通过一个词预测它的前后文的语言模型。

还记得我们最初的目标吗，我们希望构建一个词向量，能够表示词与词之间的关系，同时也不会过于稀疏，那么我们怎么从这个语言模型中得到我们的向量，答案就是神经网络中的隐层。

在解释为什么答案和隐层有关之前，我们先来想象一下，我们的神经网络计算输出的各个概率的时候，对输出层来说，它只考虑了上一层的输出作为输入，在这里，也就是隐层的输出，换句话说，假如我们的隐层输出一个300维的向量给输出层，它和我们最初的10000维向量，对于整个模型的输出是等效的，因为这个300维的向量就是最初的10000维向量经过线性变换得到的，所以，我们完全可以用这300维的向量，去表示最初的向量。

为什么这个方法得到的向量会考虑到单词之间的联系，我们可以这样去考虑，假如有两个词，他们的前后文的非常接近，那么他们训练得到的向量应该也是非常接近的，比如"he"和"she"的前后文就可能非常相似，表示的向量也应该非常接近。

最后，再从另一个角度去看待一下这个模型，现在我们有几个句子："他很好因为他帮助了我"、"我觉得他很有礼貌很好"，什么是"好"我们很难定义，但是通过"帮助"、"礼貌"等关键词就能反映出"好"这个概念，这时候我们就不再需要研究如何去定义"好"了，我觉得这也是为什么可以通过句子去表达一个单词的意思。

以上是关于skip-gram的简单介绍，除了skip-gram，我们还有cbow模型，cbow就是从另一个方向构建的语言模型：通过前后文去推断目标词。

模型的输入是前后文的各个单词对应的向量，输出是词汇表，每个元素都是对应的单词的概率，其实就是把skip-gram反过来，理解了skip-gram，cbow模型也就不难理解了。

不论是skip-gram还是cbow，我觉得它们的核心都在于构建一种单词和前后文之间的关系，然后不断的拓展，在模型的训练过程中逐渐完善这种单词与单词之间的关系，因为这种关系归根到底就是通过单词向量的距离和夹角反映的，所以最后，这两个模型都是得到各个单词在空间中的合理位置，就像最开始那副图。