google word2vec 向量表示

word2vec能直接输出词向量矩阵吗？

：将one-hot向量转换成低维词向量的这一层（虽然大家都不称之为一层，但在我看来就是一层），因为word2vec的输入是one-hot。

one-hot可看成是1*N(N是词总数)的矩阵，与这个系数矩阵（N*M, M是word2vec词向量维数）相乘之后就可以得到1*M的向量，这个向量就是这个词对应的词向量了。

那么对于那个N*M的矩阵，每一行就对应了每个单词的词向量。

接下来就是进入神经网络，然后通过训练不断更新这个矩阵。

Word2Vec中的词向量是归一化的吗

展开全部最近正好组内做了一个文档相似度的分享。

决定回答一发。

首先，如果不局限于NN的方法，可以用BOW+tf-idf+LSI/LDA的体系搞定，也就是俗称的01或one hot representation。

其次，如果楼主指定了必须用流行的NN，俗称word-embedding的方法，当然首推word2vec（虽然不算是DNN）。

然后得到了word2vec的词向量后，可以通过简单加权/tag加权/tf-idf加权等方式得到文档向量。

这算是一种方法。

当然，加权之前一般应该先干掉stop word，词聚类处理一下。

还有，doc2vec中的paragraph vector也属于直接得到doc向量的方法。

特点就是修改了word2vec中的cbow和skip-gram模型。

依据论文《Distributed Representations of Sentences and Documents》（ICML 2014）。

还有一种根据句法树加权的方式，是ICML2011提出的，见论文《Parsing Natural Scenes and Natural Language with Recursive Neural Networks》，后续也有多个改编的版本。

当然，得到词向量的方式不局限于word2vec,RNNLM和glove也能得到传说中高质量的词向量。

ICML2015的论文《From Word Embeddings To Document Distances, Kusner, Washington University》新提出一种计算doc相似度的方式，大致思路是将词之间的余弦距离作为ground distance，词频作为权重，在权重的约束条件下，求WMD的线性规划最优解。

最后，kaggle101中的一个word2vec题目的tutorial里作者如是说：他试了一下简单加权和各种加权，不管如何处理，效果还不如01，归其原因作者认为加权的方式丢失了最重要的句子结构信息（也可以说是词序信息），而doc2vec的方法则保存了这种信息。

在刚刚结束的ACL2015上，似乎很多人提到了glove的方法，其思想是挖掘词共现信息的内在含义，据说是基于全局统计的方法（LSI为代表）与基于局部预测的方法（word2vec为代表）的折衷，而且输出的词向量在词聚类任务上干掉了word2vec的结果，也可以看看。

《GloVe: Global Vectors forWord Representation》

python 3.5 ord2vec 有text8corpus么

word2vec是google的一个开源工具，能够根据输入的词的集合计算出词与词之间的距离。

它将term转换成向量形式，可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。

word2vec计算的是余弦值，距离范围为0-1之间，值越大代表两个词关联度越高。

如何评价Word2Vec作者提出的fastText算法

astText简而言之，就是把文档中所有词通过lookup table变成向量，取平均后直接用线性分类器得到分类结果。

fastText和ACL-15上的deep averaging network [1] (DAN，如下图)非常相似，区别就是去掉了中间的隐层。

两篇文章的结论也比较类似，也是指出对一些简单的分类任务，没有必要使用太复杂的网络结构就可以取得差不多的结果。

文中实验选取的都是对句子词序不是很敏感的数据集，所以得到文中的实验结果完全不奇怪。

但是比如对下面的三个例子来说：The movie is not very good , but i still like it . [2]The movie is very good , but i still do not like it .I do not like it , but the movie is still very good .其中第1、3句整体极性是positive，但第2句整体极性就是negative。

如果只是通过简单的取平均来作为sentence representation进行分类的话，可能就会很难学出词序对句子语义的影响。

从另一个角度来说，fastText可以看作是用window-size=1 + average pooling的CNN [3]对句子进行建模。

总结一下：对简单的任务来说，用简单的网络结构进行处理基本就够了，但是对比较复杂的任务，还是依然需要更复杂的网络结构来学习sentence representation的。

另外，fastText文中还提到的两个tricks分别是：hierarchical softmax类别数较多时，通过构建一个霍夫曼编码树来加速softmax layer的计算，和之前word2vec中的trick相同

我想要做一个语音智能客服,可以在语音识别的过程中直接采用Word2...

展开全部当然是可以的，因为有前车之鉴，目前市面上的各种电话机器人，就已经在采用这样的手法了，不论是卖保险还是卖房，亦或是做客服，智能语音电话机器人在后台都可以将语音转换为文字，这样以备与管理层管理和检查通话内容以及质量，也有助于销售去根据通话内容评定意向客户的需求方向，所以，用Word2vec将与语音转换为词向量是可以实现的！...

如何使用word2vec批处理多个文本

展开全部最近刚刚接触word2vec这个工具，想做一些近义词判定的工作，在得到一组词向量后不太明白如何去评价词向量的好坏。

工具中有一个compute-accuracy，是用一些给定的文本去计算accuracy，不知道这个accuracy是指什么，以及如何给定文本来计算accuracy。

...

转载请注明出处51数据库 » google word2vec 向量表示