怎么装word2vec

如何使用word2vec批处理多个文本

：将one-hot向量转换成低维词向量的这一层（虽然大家都不称之为一层，但在我看来就是一层），因为word2vec的输入是one-hot。

one-hot可看成是1*N(N是词总数)的矩阵，与这个系数矩阵（N*M, M是word2vec词向量维数）相乘之后就可以得到1*M的向量，这个向量就是这个词对应的词向量了。

那么对于那个N*M的矩阵，每一行就对应了每个单词的词向量。

接下来就是进入神经网络，然后通过训练不断更新这个矩阵。

如何评价Word2Vec作者提出的fastText算法

astText简而言之，就是把文档中所有词通过lookup table变成向量，取平均后直接用线性分类器得到分类结果。

fastText和ACL-15上的deep averaging network [1] (DAN，如下图)非常相似，区别就是去掉了中间的隐层。

两篇文章的结论也比较类似，也是指出对一些简单的分类任务，没有必要使用太复杂的网络结构就可以取得差不多的结果。

文中实验选取的都是对句子词序不是很敏感的数据集，所以得到文中的实验结果完全不奇怪。

但是比如对下面的三个例子来说：The movie is not very good , but i still like it . [2]The movie is very good , but i still do not like it .I do not like it , but the movie is still very good .其中第1、3句整体极性是positive，但第2句整体极性就是negative。

如果只是通过简单的取平均来作为sentence representation进行分类的话，可能就会很难学出词序对句子语义的影响。

从另一个角度来说，fastText可以看作是用window-size=1 + average pooling的CNN [3]对句子进行建模。

总结一下：对简单的任务来说，用简单的网络结构进行处理基本就够了，但是对比较复杂的任务，还是依然需要更复杂的网络结构来学习sentence representation的。

另外，fastText文中还提到的两个tricks分别是：hierarchical softmax类别数较多时，通过构建一个霍夫曼编码树来加速softmax layer的计算，和之前word2vec中的trick相同

怎样去掉word2vec中的近义词

展开全部最近刚刚接触word2vec这个工具，想做一些近义词判定的工作，在得到一组词向量后不太明白如何去评价词向量的好坏。

工具中有一个compute-accuracy，是用一些给定的文本去计算accuracy，不知道这个accuracy是指什么，以及如何给定文本来计算accuracy。

...

我想做一个基于人工智能的客服系统,利用Word2Vec训练出结束后,...

gensim 用conda install gensim 与pip install gensim 安装是不同的提示C编译器会更快，windows下装了 MinGW 中文wiki处理 gensim模块中有专门处理wiki语料的函数中文分词还是用的jieba 因为wiki百科有繁体，简繁体转换用了还有最开始程序运行有问题，发现了自己python的一个坏习惯，应该把程序写成函数 [python] view plain copy if __name__ == '__main__': my_function（) 这样子python import这个文件就不会发生问题 [python] view plain copy# -*- coding: utf-8 -*- from gensim.corpora import WikiCorpus import jieba from langconv import * _author__ = 'Lust' # read the wiki.xml.bz2 # transform it to simplified Chinese (use langconv) # Chinese text segmentation(use jieba) # save it as txt def my_function(): space = ＂＂ i = 0 l = [] a = '..//data//zhwiki-latest-pages-articles.xml.bz2' f = open('..//data//reduce_zhiwiki.txt', 'w') wiki = WikiCorpus(a, lemmatize=False, dictionary={}) # texts = wiki.get_texts() for text in wiki.get_texts(): for temp_sentence in text: temp_sentence = Converter('zh-hans').convert(temp_sentence.decode('utf-8')) temp_sentence = temp_sentence.encode('utf-8') seg_list = list(jieba.cut(temp_sentence)) # for temp_term in temp_sentence: for temp_term in seg_list: l.append(temp_term.encode('utf-8')) f.write(space.join(l) + ＂\n＂) l = [] i = i + 1 print ＂Saved ＂ + str(i) + ＂ articles＂ # limit number of wikis if (i == 100): break f.close() if __name__ == '__main__': my_function() gensim中的word2vector 超级简单，一个函数的事情。

唯一要注意的是workers=multiprocessing.cpu_count()-4，如果不-4,win10会蓝屏，因为CPU总是100%，把电脑累蓝了？[python] view plain copy# -*- coding: utf-8 -*- from gensim.models import Word2Vec from gensim.models.word2vec import LineSentence import multiprocessing _author__ = 'Lust' # read the txt # word2vec it # save it as model and vector def my_function(): a = open('..//data//zhiwiki_news.txt', 'r') f_1 = open('..//result//zhiwiki_news.model', 'w') f_2 = open('..//result//zhiwiki_news.vector', 'w') model = Word2Vec(LineSentence(a), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count()-4) model.save(f_1) model.save_word2vec_format(f_2, binary=False) if __name__ == '__main__': my_function（) 使用训练好的模型 [python] view plain copy# -*- coding: utf-8 -*- import gensim _author__ = 'Lust' # read the news # Chinese text segmentation(use jieba) # add it to zhiwiki_news def my_function(): model = gensim.models.Word2Vec.load_word2vec_format(＂wiki.en.text.vector＂, binary=False) model.most_similar(＂man＂) model.similarity(＂woman＂, ＂girl＂) if __name__ == '__main__': my_function()

转载请注明出处51数据库 » 怎么装word2vec