如何使用word2vec来分类
FC——文件比较命令 1.功能:比较文件的异同,并列出差异处。
2.类型:外部命令 3.格式:FC[盘符:][路径名]〈文件名〉[盘符:][路径名][文件名][/A][/B][/C][/N] 4.使用说明: (1)选用/A参数,为ASCII码比较模式; (2)选用/B参数,为二进制比较模式; (3)选用/C参数,将大小写字符看成是相同的字符。
(4)选用/N参数,在ASCII码比较方式下,显示相异处的行号。
不好意思,我还没有达到那个层次
怎样用word2vec来得到某几个词的向量表示
对数的性质及推导 用^表示乘方,用log(a)(b)表示以a为底,b的对数 *表示乘号,/表示除号 定义式: 若a^n=b(a>0且a≠1) 则n=log(a)(b) 基本性质: 1.a^(log(a)(b))=b 2.log(a)(MN)=log(a)(M)+log(a)(N); 3.log(a)(M/N)=log(a)(M)-log(a)(N); 4.log(a)(M^n)=nlog(a)(M)
word2vec和深度学习有什么关系
1、计算机视觉ImageNet Classification with Deep Convolutional Neural Networks, Alex Krizhevsky, Ilya Sutskever, Geoffrey E Hinton, NIPS 2012.Learning Hierarchical Features for Scene Labeling, Clement Farabet, Camille Couprie, Laurent Najman and Yann LeCun, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013.Learning Convolutional Feature Hierarchies for Visual Recognition, Koray Kavukcuoglu, Pierre Sermanet, Y-Lan Boureau, Karol Gregor, Micha?l Mathieu and Yann LeCun, Advances in Neural Information Processing Systems (NIPS 2010), 23, 2010.2、语音识别微软研究人员通过与hintion合作,首先将RBM和DBN引入到语音识别声学模型训练中,并且在大词汇量语音识别系统中获得巨大成功,使得语音识别的错误率相对减低30%。
但是,DNN还没有有效的并行快速算法,很多研究机构都是在利用大规模数据语料通过GPU平台提高DNN声学模型的训练效率。
在国际上,IBM、google等公司都快速进行了DNN语音识别的研究,并且速度飞快。
国内方面,阿里巴巴,科大讯飞、百度、中科院自动化所等公司或研究单位,也在进行深度学习在语音识别上的研究。
3、自然语言处理等其他领域很多机构在开展研究,2013年Tomas Mikolov,Kai Chen,Greg Corrado,Jeffrey Dean发表论文Efficient Estimation of Word Representations in Vector Space建立word2vector模型,与传统的词袋模型(bag of words)相比,word2vector能够更好地表达语法信息。
深度学习在自然语言处理等领域主要应用于机器翻译以及语义挖掘等方面。
如何用python安装woord2vector
gensim 用conda install gensim 与pip install gensim 安装是不同的 提示C编译器会更快,windows下装了 MinGW 中文wiki处理 gensim模块中有专门处理wiki语料的函数 中文分词还是用的jieba 因为wiki百科有繁体,简繁体转换用了 还有最开始程序运行有问题,发现了自己python的一个坏习惯,应该把程序写成函数 [python] view plain copy if __name__ == '__main__': my_function() 这样子python import这个文件就不会发生问题 [python] view plain copy# -*- coding: utf-8 -*- from gensim.corpora import WikiCorpus import jieba from langconv import * _author__ = 'Lust' # read the wiki.xml.bz2 # transform it to simplified Chinese (use langconv) # Chinese text segmentation(use jieba) # save it as txt def my_function(): space = " " i = 0 l = [] a = '..//data//zhwiki-latest-pages-articles.xml.bz2' f = open('..//data//reduce_zhiwiki.txt', 'w') wiki = WikiCorpus(a, lemmatize=False, dictionary={}) # texts = wiki.get_texts() for text in wiki.get_texts(): for temp_sentence in text: temp_sentence = Converter('zh-hans').convert(temp_sentence.decode('utf-8')) temp_sentence = temp_sentence.encode('utf-8') seg_list = list(jieba.cut(temp_sentence)) # for temp_term in temp_sentence: for temp_term in seg_list: l.append(temp_term.encode('utf-8')) f.write(space.join(l) + "\n") l = [] i = i + 1 print "Saved " + str(i) + " articles" # limit number of wikis if (i == 100): break f.close() if __name__ == '__main__': my_function() gensim中的word2vector 超级简单,一个函数的事情。
唯一要注意的是workers=multiprocessing.cpu_count()-4,如果不-4,win10会蓝屏,因为CPU总是100%,把电脑累蓝了?[python] view plain copy# -*- coding: utf-8 -*- from gensim.models import Word2Vec from gensim.models.word2vec import LineSentence import multiprocessing _author__ = 'Lust' # read the txt # word2vec it # save it as model and vector def my_function(): a = open('..//data//zhiwiki_news.txt', 'r') f_1 = open('..//result//zhiwiki_news.model', 'w') f_2 = open('..//result//zhiwiki_news.vector', 'w') model = Word2Vec(LineSentence(a), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count()-4) model.save(f_1) model.save_word2vec_format(f_2, binary=False) if __name__ == '__main__': my_function() 使用训练好的模型 [python] view plain copy# -*- coding: utf-8 -*- import gensim _author__ = 'Lust' # read the news # Chinese text segmentation(use jieba) # add it to zhiwiki_news def my_function(): model = gensim.models.Word2Vec.load_word2vec_format("wiki.en.text.vector", binary=False) model.most_similar("man") model.similarity("woman", "girl") if __name__ == '__main__': my_function()
word2vec训练词向量要运行多久
机器内存不够。
这个程序很吃内存。
我也是这样。
增加了个内存条。
刚用wiki的中文语料训练完,用的是gensim,据说比C的版本快。
服务器单机跑CPU核心数个线程,跑了35分钟,不长。
这个用macPro(4 core 16G)跑,也大概是半个小时。
用wiki英文语料训练的用时较长,约7小时。
如何用 word2vec 计算两个句子之间的相似度
昨天晚上正无聊,看着电视机,无意中看到了感动中国着这个节目,这个节目吊起了我的胃口,这是一个被誉为“中国人年度精神史诗”的电视公益活动,被评为“感动中国2013年度十大人物”的分别是:隐姓埋名30年的中国核潜艇之父黄旭华;退休后20年坚持每天出诊的仁医胡佩兰;荣誉迟到28年而一生不悔的湖北见义勇为好市民方俊明;35年前仆后继、追逐科技梦想的“油菜花父子”沈克泉、沈昌健;守护开国将军梦想,全心全意为群众服务的革命老人龚全珍;年届90仍然坚持拾荒助学的山东老人刘盛兰;努力改变乡村面貌的基层好干部山西村官段爱平;悬崖边上的护梦人,西藏墨脱山区教师格桑德吉;为报答战友深情,几十年守护天山筑路士兵墓园的老兵陈俊贵;为子女筹学费,耗时3年绣出《清明上河图》的重病母亲姚厚芝。
这些人的事迹令我震撼,其中我觉得刘盛兰老人的事迹令我最感动,以拾荒和政府补贴为经济来源的他用自己攒下的,从衣食中节检下来的钱,全部捐给了那些需要帮助学子,有些学子不了解他,在回信中称呼他:刘奶奶,刘阿姨,当那些学子知道了,纷纷潸然泪下。
感动中国感动我心,我们要学习他们的大爱无疆。
转载请注明出处51数据库 » word2vec 中文 model