word2vector代码

1. 如何用python安装woord2vector

gensim 用conda install gensim 与pip install gensim 安装是不同的提示C编译器会更快，windows下装了 MinGW 中文wiki处理 gensim模块中有专门处理wiki语料的函数中文分词还是用的jieba 因为wiki百科有繁体，简繁体转换用了还有最开始程序运行有问题，发现了自己python的一个坏习惯，应该把程序写成函数 [python] view plain copy if __name__ == '__main__': my_function（) 这样子python import这个文件就不会发生问题 [python] view plain copy# -*- coding: utf-8 -*- from gensim.corpora import WikiCorpus import jieba from langconv import * _author__ = 'Lust' # read the wiki.xml.bz2 # transform it to simplified Chinese (use langconv) # Chinese text segmentation(use jieba) # save it as txt def my_function(): space = " " i = 0 l = [] a = '..//data//zhwiki-latest-pages-articles.xml.bz2' f = open('..//data//reduce_zhiwiki.txt', 'w') wiki = WikiCorpus(a, lemmatize=False, dictionary={}) # texts = wiki.get_texts() for text in wiki.get_texts(): for temp_sentence in text: temp_sentence = Converter('zh-hans').convert(temp_sentence.decode('utf-8')) temp_sentence = temp_sentence.encode('utf-8') seg_list = list(jieba.cut(temp_sentence)) # for temp_term in temp_sentence: for temp_term in seg_list: l.append(temp_term.encode('utf-8')) f.write(space.join(l) + "\n") l = [] i = i + 1 print "Saved " + str(i) + " articles" # limit number of wikis if (i == 100): break f.close() if __name__ == '__main__': my_function() gensim中的word2vector 超级简单，一个函数的事情。

唯一要注意的是workers=multiprocessing.cpu_count()-4，如果不-4,win10会蓝屏，因为CPU总是100%，把电脑累蓝了？[python] view plain copy# -*- coding: utf-8 -*- from gensim.models import Word2Vec from gensim.models.word2vec import LineSentence import multiprocessing _author__ = 'Lust' # read the txt # word2vec it # save it as model and vector def my_function(): a = open('..//data//zhiwiki_news.txt', 'r') f_1 = open('..//result//zhiwiki_news.model', 'w') f_2 = open('..//result//zhiwiki_news.vector', 'w') model = Word2Vec(LineSentence(a), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count()-4) model.save(f_1) model.save_word2vec_format(f_2, binary=False) if __name__ == '__main__': my_function（) 使用训练好的模型 [python] view plain copy# -*- coding: utf-8 -*- import gensim _author__ = 'Lust' # read the news # Chinese text segmentation(use jieba) # add it to zhiwiki_news def my_function(): model = gensim.models.Word2Vec.load_word2vec_format("wiki.en.text.vector", binary=False) model.most_similar("man") model.similarity("woman", "girl") if __name__ == '__main__': my_function()。

2. word2vec 词向量怎么来的

2013年，Google开源了一款用于词向量计算的工具——word2vec，引起了工业界和学术界的关注。首先，word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练；其次，该工具得到的训练结果——词向量（word embedding），可以很好地度量词与词之间的相似性。随着深度学习（Deep Learning）在自然语言处理中应用的普及，很多人误以为word2vec是一种深度学习算法。其实word2vec算法的背后是一个浅层神经网络。另外需要强调的一点是，word2vec是一个计算word vector的开源工具。当我们在说word2vec算法或模型的时候，其实指的是其背后用于计算word vector的CBoW模型和Skip-gram模型。很多人以为word2vec指的是一个算法或模型，这也是一种谬误。接下来，本文将从统计语言模型出发，尽可能详细地介绍word2vec工具背后的算法模型的来龙去脉。

详情：网页链接

3. word2vec中中文训练集训练成了英文是怎么回

准备工作为了训练语料库，当然需要去下载。

英文wiki语料库（11。9G）中文wiki语料库（1。

2G）然后就是准备好编译环境，语言选择的是python，使用了gensim的库，该库是由Radim ?eh??ek博士基于google发布的C语言版本的word2vec编写的Python库。如何安装该库就不多说了。

处理流程1、英文wiki训练首先需要将xml的文件转换成txt文件，主要通过process_wiki。py这个脚本来进行，在参考文考网页中提出了注意“wiki = WikiCorpus(inp, lemmatize=False, dictionary={})“将lemmatize设置为False避免使用Pattern来讲英文单词词干化处理，以免变得很慢，于是就华丽丽的接受。

整个过程大概用了5个小时左右，共有差不多400W的articles。执行命令为：python3 process_wiki。

py enwiki-latest-pages-articles。xml。

bz2 wiki。en。

text生成了wiki。 en。

text，生成的效果如下：文/howe_howe（简书作者）原文链接：/p/05800a28c5e4著作权归作者所有，转载请联系作者获得授权，并标注“简书作者”。

转载请注明出处51数据库 » word2vector代码