LSTM的输出可以用word2vec得到的向量吗
如果是2003版本的话,简单的说有3种方法
1)使用公式编辑器,在公式编辑器中有一项是专门用以编辑向量符号的,如你的word 工具栏没有这一项,可以进行安装;
2)在word状态下使用画图的功能,画一单箭头,然后移到字母上即可;
3)也可以使用插入文本框的方式:在文本框内光标处使用‘插入’--‘符号’,插入单箭头,然后把文本框及文本框的边线分别设置为无填充色及透明,然后移到表示向量的字母上方即可.
一般来说第一种方法最方便,采用典型安装的office,公式编辑器是不被装入的,如果你有office安装盘,可以添加安装公式编辑器,在office工具里。安装以后,从视图—工具栏—自定义进入,在插入条目下,把一个带α的图标拖到菜单栏里,点击以后交可以使用.
word2vec是如何得到词向量的
假设每个词对应一个词向量,假设:
1)两个词的相似度正比于对应词向量的乘积。即:sim(v1,v2)=v1?v2sim(v1,v2)=v1?v2。即点乘原则;
2)多个词v1~vnv1~vn组成的一个上下文用CC来表示,其中C=∑ni=1viC=∑i=1nvi。C|C|C|C|称作上下文C的中心向量。即加和原则;
3)在上下文CC中出现单词AA的概率正比于能量因子e?E(A,C),whereE=?A?Ce?E(A,C),whereE=?A?C。即能量法则(可参看热统中的配分函数)。
因此:
p(A|C)=e?E(A,C)∑Vi=1e?E(vi,C)=eA?C∑Vi=1evi?C (1)p(A|C)=e?E(A,C)∑i=1Ve?E(vi,C)=eA?C∑i=1Vevi?C (1)
其中VV是整个词汇空间。
ref1ref1的分母计算是非常耗时的,下面推导比较方面快速的计算ref1ref1的方法。
把整个词汇空间分成两部分GG和HH,同时在下面的公式中GG和HH也表示各自的词向量中心,并且设AA存在于GG中,则:
p(A|C)=p(A|G,C)?p(G|C) (2)p(A|C)=p(A|G,C)?p(G|C) (2)
where,
p(G|C)=eG?CeG?C+eH?C=11+e(H?G)?C (3)p(G|C)=eG?CeG?C+eH?C=11+e(H?G)?C (3)
and,
p(A|G,C)=eA?C∑w∈Gew?C (4)p(A|G,C)=eA?C∑w∈Gew?C (4)
引入sigmoidsigmoid函数σ(x)=1/(1+e?x)σ(x)=1/(1+e?x),则
p(G|C)=σ(?(H?G)?C)=σ((G?H)?C)p(G|C)=σ(?(H?G)?C)=σ((G?H)?C)
p(G|C)p(G|C)只是简单的计算两部分向量之差,不能再简化了。
另外,根据上述定义,很容易得到这个关系p(G|C)=1?(H|C)p(G|C)=1?(H|C),因为CC要么落在GG要么落在HH。
观看ref4ref4,则知p(A|G,C)p(A|G,C)是另一个版本的p(A,C)p(A,C),只是词汇空间从V→GV→G而已。然后我们继续拆分GG递归的计算下去,最后只需要计算各兄弟部分的向量差而已。这是一个典型的二叉树,划分规则在开始就可确定,如果考虑查询效率的话,就是一个霍夫曼树。其中每个叶子节点表示一个单词,每个中间节点G or HG or H的向量为所有子向量的中心。
展开来就是:
p(A|C)=∏σ((Gi?Hi)?C)p(A|C)=∏σ((Gi?Hi)?C)
那么问题来了,这个词向量是怎么搞出来了?学习词向量哪家强?
现在我们这里有一堆的语料,一行一行分好词的,语料那是相当的多,以至于它涵盖了自然语言中的所有正确句子,每个单词在它所在的位置都是恰到好处。现在每个单词我们有一个对应的词向量,我们怎么来衡量这批词向量的好坏呢。
这批词向量张成一个自然语言的空间(从线性代数来说这样描述可能不太准确),它自己规定的自然语言空间,在这个空间中,它可以导出给定语料在它的空间中出现的概率。熟悉吧,这就是语言模型。
我们可以根据词向量计算出来每个单词在它的位置出现的概率,然后这整个语料在这个向量空间中出现的概率就等于每个词在其位置出现概率的乘积。
即,
p(T)=∏p(wi|Contexti) (5)p(T)=∏p(wi|Contexti) (5)
TT为整个语料样本,ContextiContexti为单词ii的上下文,理论上是扣除该单词后剩下的所有单词包括位置。当然了,我们只考虑它的前后cc个邻居。
我们的目标是使ref5ref5最大化,实际中是加loglog加负之后的最小化。怎么以高效率优化这个目标函数呢,这是一个典型的运筹学问题,而且还是非线性规划。我要翻一下运筹学的教材了。
word2vec有什么应用
您好,我看到您的问题很久没有人来回答,但是问题过期无人回答会被扣分的并且你的悬赏分也会被没收!所以我给你提几条建议:一,你可以选择在正确的分类下去提问,这样知道你问题答案的人才会多一些,回答的人也会多些。二,您可以到与您问题相关专业网站论坛里去看看,那里聚集了许多专业人才,一定可以为你解决问题的。三,你可以向你的网上好友问友打听,他们会更加真诚热心为你寻找答案的,甚至可以到相关网站直接搜索.四,网上很多专业论坛以及知识平台,上面也有很多资料,我遇到专业性的问题总是上论坛求解决办法的。五,将你的问题问的细一些,清楚一些!让人更加容易看懂明白是什么意思!谢谢采纳我的建议! !。
word2vec和深度学习有什么关系
1、计算机视觉ImageNet Classification with Deep Convolutional Neural Networks, Alex Krizhevsky, Ilya Sutskever, Geoffrey E Hinton, NIPS 2012.Learning Hierarchical Features for Scene Labeling, Clement Farabet, Camille Couprie, Laurent Najman and Yann LeCun, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013.Learning Convolutional Feature Hierarchies for Visual Recognition, Koray Kavukcuoglu, Pierre Sermanet, Y-Lan Boureau, Karol Gregor, Micha?l Mathieu and Yann LeCun, Advances in Neural Information Processing Systems (NIPS 2010), 23, 2010.2、语音识别微软研究人员通过与hintion合作,首先将RBM和DBN引入到语音识别声学模型训练中,并且在大词汇量语音识别系统中获得巨大成功,使得语音识别的错误率相对减低30%。但是,DNN还没有有效的并行快速算法,很多研究机构都是在利用大规模数据语料通过GPU平台提高DNN声学模型的训练效率。在国际上,IBM、google等公司都快速进行了DNN语音识别的研究,并且速度飞快。国内方面,阿里巴巴,科大讯飞、百度、中科院自动化所等公司或研究单位,也在进行深度学习在语音识别上的研究。3、自然语言处理等其他领域很多机构在开展研究,2013年Tomas Mikolov,Kai Chen,Greg Corrado,Jeffrey Dean发表论文Efficient Estimation of Word Representations in Vector Space建立word2vector模型,与传统的词袋模型(bag of words)相比,word2vector能够更好地表达语法信息。 深度学习在自然语言处理等领域主要应用于机器翻译以及语义挖掘等方面。
转载请注明出处51数据库 » word2vec输出是什么
不懂看头像罒罒罒罒罒罒约吗