cbow和word2vec

1.word2vec和word embedding有什么区别

个人理解是，word embedding 是一个将词向量化的概念，来源于Bengio的论文《Neural probabilistic language models》，中文译名有"词嵌入"。

word2vec是谷歌提出一种word embedding 的工具或者算法集合，采用了两种模型（CBOW与skip-gram模型）与两种方法（负采样与层次softmax方法）的组合，比较常见的组合为 skip-gram+负采样方法。

可以查看以下两个来源，

word embedding :Word embedding - Wikipedia

word2vec中的数学原理详解：word2vec 中的数学原理详解（一）目录和前言

对于起源与其他的word embedding方法可以查看 Deep Learning in NLP （一）词向量和语言模型

2.word2vec 词向量怎么来的

2013年，Google开源了一款用于词向量计算的工具——word2vec，引起了工业界和学术界的关注。首先，word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练；其次，该工具得到的训练结果——词向量（word embedding），可以很好地度量词与词之间的相似性。随着深度学习（Deep Learning）在自然语言处理中应用的普及，很多人误以为word2vec是一种深度学习算法。其实word2vec算法的背后是一个浅层神经网络。另外需要强调的一点是，word2vec是一个计算word vector的开源工具。当我们在说word2vec算法或模型的时候，其实指的是其背后用于计算word vector的CBoW模型和Skip-gram模型。很多人以为word2vec指的是一个算法或模型，这也是一种谬误。接下来，本文将从统计语言模型出发，尽可能详细地介绍word2vec工具背后的算法模型的来龙去脉。

详情：网页链接

3.word2vec和深度学习有什么关系

1、计算机视觉

ImageNet Classification with Deep Convolutional Neural Networks, Alex Krizhevsky, Ilya Sutskever, Geoffrey E Hinton, NIPS 2012.

Learning Hierarchical Features for Scene Labeling, Clement Farabet, Camille Couprie, Laurent Najman and Yann LeCun, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013.

Learning Convolutional Feature Hierarchies for Visual Recognition, Koray Kavukcuoglu, Pierre Sermanet, Y-Lan Boureau, Karol Gregor, Micha?l Mathieu and Yann LeCun, Advances in Neural Information Processing Systems (NIPS 2010), 23, 2010.

2、语音识别

微软研究人员通过与hintion合作，首先将RBM和DBN引入到语音识别声学模型训练中，并且在大词汇量语音识别系统中获得巨大成功，使得语音识别的错误率相对减低30%。但是，DNN还没有有效的并行快速算法，很多研究机构都是在利用大规模数据语料通过GPU平台提高DNN声学模型的训练效率。

在国际上，IBM、google等公司都快速进行了DNN语音识别的研究，并且速度飞快。

国内方面，阿里巴巴，科大讯飞、百度、中科院自动化所等公司或研究单位，也在进行深度学习在语音识别上的研究。

3、自然语言处理等其他领域

很多机构在开展研究，2013年Tomas Mikolov,Kai Chen,Greg Corrado,Jeffrey Dean发表论文Efficient Estimation of Word Representations in Vector Space建立word2vector模型，与传统的词袋模型（bag of words）相比，word2vector能够更好地表达语法信息。深度学习在自然语言处理等领域主要应用于机器翻译以及语义挖掘等方面。

4.如何计算两个文档的相似度

如果不局限于NN的方法：他试了一下简单加权和各种加权， Washington University》新提出一种计算doc相似度的方式，见论文《Parsing Natural Scenes and Natural Language with Recursive Neural Networks》。

特点就是修改了word2vec中的cbow和skip-gram模型，俗称word-embedding的方法，kaggle101中的一个word2vec题目的tutorial里作者如是说，据说是基于全局统计的方法（LSI为代表）与基于局部预测的方法（word2vec为代表）的折衷最近正好组内做了一个文档相似度的分享，效果还不如01,doc2vec中的paragraph vector也属于直接得到doc向量的方法，求WMD的线性规划最优解。

5.求关于文档相似度

对于文档/文本相似度的判定采取的主要算法有3种：

1、最长公共子串算法（Longest-common-subsequence , LCS算法）。LCS算法就是求两个字符串的公共子串的最大可能长度。

2、余弦定理（向量空间算法）。这是利用余弦定理和广义Jaccard系数来计算文本相似度。

3、距离编辑算法（Levenshtein Distance,LD算法）。距离编辑的定义是将字符串A转换为字符串B所用的最少字符操作数。

有用“距离编辑算法”写了毕业论文和代码，某宝上搜索“文档相似度检测系统代码”可以买到

6.word2vec和深度学习有什么关系

1、计算机视觉ImageNet Classification with Deep Convolutional Neural Networks, Alex Krizhevsky, Ilya Sutskever, Geoffrey E Hinton, NIPS 2012.Learning Hierarchical Features for Scene Labeling, Clement Farabet, Camille Couprie, Laurent Najman and Yann LeCun, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013.Learning Convolutional Feature Hierarchies for Visual Recognition, Koray Kavukcuoglu, Pierre Sermanet, Y-Lan Boureau, Karol Gregor, Micha?l Mathieu and Yann LeCun, Advances in Neural Information Processing Systems (NIPS 2010), 23, 2010.2、语音识别微软研究人员通过与hintion合作，首先将RBM和DBN引入到语音识别声学模型训练中，并且在大词汇量语音识别系统中获得巨大成功，使得语音识别的错误率相对减低30%。

但是，DNN还没有有效的并行快速算法，很多研究机构都是在利用大规模数据语料通过GPU平台提高DNN声学模型的训练效率。在国际上，IBM、google等公司都快速进行了DNN语音识别的研究，并且速度飞快。

国内方面，阿里巴巴，科大讯飞、百度、中科院自动化所等公司或研究单位，也在进行深度学习在语音识别上的研究。3、自然语言处理等其他领域很多机构在开展研究，2013年Tomas Mikolov,Kai Chen,Greg Corrado,Jeffrey Dean发表论文Efficient Estimation of Word Representations in Vector Space建立word2vector模型，与传统的词袋模型（bag of words）相比，word2vector能够更好地表达语法信息。

深度学习在自然语言处理等领域主要应用于机器翻译以及语义挖掘等方面。

7.如何在原有词向量的基础上fine

最近正好组内做了一个文档相似度的分享。决定回答一发。

首先，如果不局限于NN的方法，可以用BOW+tf-idf+LSI/LDA的体系搞定，也就是俗称的01或one hot representation。

其次，如果楼主指定了必须用流行的NN，俗称word-embedding的方法，当然首推word2vec（虽然不算是DNN）。然后得到了word2vec的词向量后，可以通过简单加权/tag加权/tf-idf加权等方式得到文档向量。这算是一种方法。当然，加权之前一般应该先干掉stop word，词聚类处理一下。

还有，doc2vec中的paragraph vector也属于直接得到doc向量的方法。特点就是修改了word2vec中的cbow和skip-gram模型。依据论文《Distributed Representations of Sentences and Documents》（ICML 2014）。

还有一种根据句法树加权的方式，是ICML2011提出的，见论文《Parsing Natural Scenes and Natural Language with Recursive Neural Networks》，后续也有多个改编的版本。

当然，得到词向量的方式不局限于word2vec,RNNLM和glove也能得到传说中高质量的词向量。

转载请注明出处51数据库 » cbow和word2vec