做自然语言处理,第一步肯定是数据的预处理了,对于图像数据,我们可以把图像转化为矩阵,那么对于自然语言,我们又应该进行怎样的转化呢。
方法有很多,在网上一搜,会发现word2vec、分布式表示、word embedding等等一大堆名次,但是可以说,他们都是为了让文本能够以数字的形式呈现,要么是一维向量,要么是矩阵等等,不同的方法模型有不同的优缺点,这里先从比较简单的方法说起,也就是本文的主角词袋模型。词袋模型忽略了文本的语法语序等要素,构建了一个词汇的无序集合,通过这个集合去表达一段文字或一个文档:
举一个简单的例子比如现在我们有一句话:today is a good day, tomorrow is a bad day;我们就可以基于这句话构建一个词袋:"today"、"is"、"a"、"good"、"day"、"tomorrow"、"bad"。然后,我们就可以根据词袋中的元素在句子中出现的次数,用矩阵去表示这句话:
$$
\begin{matrix}
1 & 2 & 2 & 1 & 2 & 1 & 1 \\
\end{matrix}
$$
顺带说明一下,统计词频有时候对情感的表达是有用的,比如一个句子里面出现了很多次good,如果我们不考虑它出现次数而只是用1表示它出现过,就无法准确表达句子的情感,对文本分类等问题造成偏差。
另外,这种无序表示方法,我觉得有点像小时候学习语文做的练习题,给出一堆无序的词语,比如"去哪里"、"明天"、"你",然后做排序,就可以得到"你明天去哪里",这时候,其实不论是有序还是无序,我们都能猜出句子的意思,所以像这种通过矩阵表示一个句子是可行的。
但是词袋的缺点也很明显,当我们的词汇量增大时,对于每句话用到的词最多还是十来个,于是就导致了每句话的矩阵都是稀疏的,严重影响了内存和计算资源。除此之外,因为词袋是基于一个个独立的单词的,在一个句子中没有考虑到词与词之间的顺序和联系,所以在部分情况下可能会导致句义表达不准确,比如"你打了我"和"我打了你",虽然意思相反但是通过词袋模型表达都是一样的。
基于词袋模型的这些缺点,我们还能进一步改进,比如采取n元特征(N-gram特征),把句子的顺序也考虑进去,比如原来我们针对"today is a good day"构建的词袋是:("today"、"is"、"a"、"good"、"day"),如果采取二元特征就可以变成:("today is"、"is a"、"a good"、"good day"),这里构建的词袋就不再是单一的词,考虑了词与词之间的顺序。