lda word2vec

用lda计算文档相似性,一般需要分多少类

如果你真想解决这个问题，TFIDF可以90%的解决问题。

对于一些的应用，可能同义词之类的比较重要，这样的话MF/LSA/LDA等降维的方法可以提升到95%。

另外一些情况下，引入一些跟问题相关的专用的feature或者转化一下你要Factorization的Matrix中的值，可能要比上复杂的Model更有效一些。

Word2vec不是用来表示doc的，最naive的做法是做word vector的平均，但是效果肯定不如上面提到的。

如何使用word2vec批处理多个文本

：将one-hot向量转换成低维词向量的这一层（虽然大家都不称之为一层，但在我看来就是一层），因为word2vec的输入是one-hot。

one-hot可看成是1*N(N是词总数)的矩阵，与这个系数矩阵（N*M, M是word2vec词向量维数）相乘之后就可以得到1*M的向量，这个向量就是这个词对应的词向量了。

那么对于那个N*M的矩阵，每一行就对应了每个单词的词向量。

接下来就是进入神经网络，然后通过训练不断更新这个矩阵。

Word2Vec中的词向量是归一化的吗

展开全部：将one-hot向量转换成低维词向量的这一层（虽然大家都不称之为一层，但在我看来就是一层），因为word2vec的输入是one-hot。

那么对于那个N*M的矩阵，每一行就对应了每个单词的词向量。

接下来就是进入神经网络，然后通过训练不断更新这个矩阵。

...

如何评价Word2Vec作者提出的fastText算法

astText简而言之，就是把文档中所有词通过lookup table变成向量，取平均后直接用线性分类器得到分类结果。

fastText和ACL-15上的deep averaging network [1] (DAN，如下图)非常相似，区别就是去掉了中间的隐层。

两篇文章的结论也比较类似，也是指出对一些简单的分类任务，没有必要使用太复杂的网络结构就可以取得差不多的结果。

文中实验选取的都是对句子词序不是很敏感的数据集，所以得到文中的实验结果完全不奇怪。

但是比如对下面的三个例子来说：The movie is not very good , but i still like it . [2]The movie is very good , but i still do not like it .I do not like it , but the movie is still very good .其中第1、3句整体极性是positive，但第2句整体极性就是negative。

如果只是通过简单的取平均来作为sentence representation进行分类的话，可能就会很难学出词序对句子语义的影响。

从另一个角度来说，fastText可以看作是用window-size=1 + average pooling的CNN [3]对句子进行建模。

总结一下：对简单的任务来说，用简单的网络结构进行处理基本就够了，但是对比较复杂的任务，还是依然需要更复杂的网络结构来学习sentence representation的。

另外，fastText文中还提到的两个tricks分别是：hierarchical softmax类别数较多时，通过构建一个霍夫曼编码树来加速softmax layer的计算，和之前word2vec中的trick相同

转载请注明出处51数据库 » lda word2vec