词语相似度 word2vec

如何用word2vec计算两个词组合在一起和一个词的相似度

读到这里，你或许认为我这篇文章同样不涉及敏感话题，同样符合社会主流价值观，回过头来看一看你会发现我这篇文章的最初写作目的是什么。

虽然写到中间部分时提出了自己的观点，但观点在上一段已经写完了，因此这一段只能接着我最初了目的去写了，这也算是一种首尾照应吧。

孟子曰：吾善养吾浩然之气。

我可能不善养他那种浩气，但我会善养我书卷气。

在一个社会普遍缺钙，现实中气不足的时代，书卷气对人尤其重要，它可以让人活得有价值，有尊严，有品位。

而要想养成这种书卷气，就必须读些有“气”的文史典籍，读些有书卷气的人。

如何用 word2vec 计算两个句子之间的相似度

昨天晚上正无聊，看着电视机，无意中看到了感动中国着这个节目，这个节目吊起了我的胃口，这是一个被誉为“中国人年度精神史诗”的电视公益活动，被评为“感动中国2013年度十大人物”的分别是：隐姓埋名30年的中国核潜艇之父黄旭华；退休后20年坚持每天出诊的仁医胡佩兰；荣誉迟到28年而一生不悔的湖北见义勇为好市民方俊明；35年前仆后继、追逐科技梦想的“油菜花父子”沈克泉、沈昌健；守护开国将军梦想，全心全意为群众服务的革命老人龚全珍；年届90仍然坚持拾荒助学的山东老人刘盛兰；努力改变乡村面貌的基层好干部山西村官段爱平；悬崖边上的护梦人，西藏墨脱山区教师格桑德吉；为报答战友深情，几十年守护天山筑路士兵墓园的老兵陈俊贵；为子女筹学费，耗时3年绣出《清明上河图》的重病母亲姚厚芝。

这些人的事迹令我震撼，其中我觉得刘盛兰老人的事迹令我最感动，以拾荒和政府补贴为经济来源的他用自己攒下的，从衣食中节检下来的钱，全部捐给了那些需要帮助学子，有些学子不了解他，在回信中称呼他：刘奶奶，刘阿姨，当那些学子知道了，纷纷潸然泪下。

感动中国感动我心，我们要学习他们的大爱无疆。

Word2vec的词聚类结果与LDA的主题词聚类结果,有什么不同

最近正好组内做了一个文档相似度的分享。

决定回答一发。

首先，如果不局限于NN的方法，可以用BOW+tf-idf+LSI/LDA的体系搞定，也就是俗称的01或one hot representation。

其次，如果楼主指定了必须用流行的NN，俗称word-embedding的方法，当然首推word2vec（虽然不算是DNN）。

然后得到了word2vec的词向量后，可以通过简单加权/tag加权/tf-idf加权等方式得到文档向量。

这算是一种方法。

当然，加权之前一般应该先干掉stop word，词聚类处理一下。

还有，doc2vec中的paragraph vector也属于直接得到doc向量的方法。

特点就是修改了word2vec中的cbow和skip-gram模型。

依据论文《Distributed Representations of Sentences and Documents》（ICML 2014）。

还有一种根据句法树加权的方式，是ICML2011提出的，见论文《Parsing Natural Scenes and Natural Language with Recursive Neural Networks》，后续也有多个改编的版本。

当然，得到词向量的方式不局限于word2vec,RNNLM和glove也能得到传说中高质量的词向量。

ICML2015的论文《From Word Embeddings To Document Distances, Kusner, Washington University》新提出一种计算doc相似度的方式，大致思路是将词之间的余弦距离作为ground distance，词频作为权重，在权重的约束条件下，求WMD的线性规划最优解。

最后，kaggle101中的一个word2vec题目的tutorial里作者如是说：他试了一下简单加权和各种加权，不管如何处理，效果还不如01，归其原因作者认为加权的方式丢失了最重要的句子结构信息（也可以说是词序信息），而doc2vec的方法则保存了这种信息。

在刚刚结束的ACL2015上，似乎很多人提到了glove的方法，其思想是挖掘词共现信息的内在含义，据说是基于全局统计的方法（LSI为代表）与基于局部预测的方法（word2vec为代表）的折衷，而且输出的词向量在词聚类任务上干掉了word2vec的结果，也可以看看。

《GloVe: Global Vectors forWord Representation》

word2vec 词向量怎么来的

2013年，Google开源了一款用于词向量计算的工具——word2vec，引起了工业界和学术界的关注。

首先，word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练；其次，该工具得到的训练结果——词向量（word embedding），可以很好地度量词与词之间的相似性。

随着深度学习（Deep Learning）在自然语言处理中应用的普及，很多人误以为word2vec是一种深度学习算法。

其实word2vec算法的背后是一个浅层神经网络。

另外需要强调的一点是，word2vec是一个计算word vector的开源工具。

当我们在说word2vec算法或模型的时候，其实指的是其背后用于计算word vector的CBoW模型和Skip-gram模型。

很多人以为word2vec指的是一个算法或模型，这也是一种谬误。

接下来，本文将从统计语言模型出发，尽可能详细地介绍word2vec工具背后的算法模型的来龙去脉。

详情：网页链接

如何通过词向量技术来计算2个文档的相似度