1. word embedding 是什么
word embedding的意思是:给出一个文档,文档就是一个单词序列比如 “A B A C B F G”, 希望对文档中每个不同的单词都得到一个对应的向量(往往是低维向量)表示。
比如,对于这样的“A B A C B F G”的一个序列,也许我们最后能得到:A对应的向量为[0.1 0.6 -0.5],B对应的向量为[-0.2 0.9 0.7] (此处的数值只用于示意)之所以希望把每个单词变成一个向量,目的还是为了方便计算,比如“求单词A的同义词”,就可以通过“求与单词A在cos距离下最相似的向量”来做到。
2. word embedding 是什么
word embedding的意思是:给出一个文档,文档就是一个单词序列比如 “A B A C B F G”, 希望对文档中每个不同的单词都得到一个对应的向量(往往是低维向量)表示。
比如,对于这样的“A B A C B F G”的一个序列,也许我们最后能得到:A对应的向量为[0.1 0.6 -0.5],B对应的向量为[-0.2 0.9 0.7] (此处的数值只用于示意)之所以希望把每个单词变成一个向量,目的还是为了方便计算,比如“求单词A的同义词”,就可以通过“求与单词A在cos距离下最相似的向量”来做到。
3. 自然语言处理 语言模型 有哪些
最近我们实验室整理发布了一批开源NLP工具包,这里列一下,欢迎大家使用。未来不定期更新。
2016年3月31日更新,在THULAC新增Python版本分词器,欢迎使用。
中文词法分析
THULAC:一个高效的中文词法分析工具包
包括中文分词、词性标注功能。已经提供C++、Java、Python版本。
中文文本分类
THUCTC: 一个高效的中文文本分类工具
提供高效的中文文本特征提取、分类训练和测试功能。
THUTag: 关键词抽取与社会标签推荐工具包
GitHub - YeDeming/THUTag: A Package of Keyphrase Extraction and Social Tag Suggestion
提供关键词抽取、社会标签推荐功能,包括TextRank、ExpandRank、Topical PageRank(TPR)、Tag-LDA、Word Trigger Model、Word Alignment Model等算法。
PLDA / PLDA+: 一个高效的LDA分布式学习工具包
/archive/p/plda/
知识表示学习
知识表示学习工具包
GitHub - Mrlyk423/Relation_Extraction: Knowledge Base Embedding
包括TransE、TransH、TransR、PTransE等算法。
考虑实体描述的知识表示学习算法
GitHub - xrb92/DKRL: Representation Learning of Knowledge Graphs with Entity Descriptions
词表示学习
跨语言词表示学习算法
Learning Cross-lingual Word Embeddings via Matrix Co-factorization
主题增强的词表示学习算法
GitHub - largelymfs/topical_word_embeddings: A demo code for topical word embedding
可解释的词表示学习算法
GitHub - SkTim/OIWE: Online Interpretable Word Embeddings
考虑字的词表示学习算法
GitHub - Leonard-Xu/CWE
网络表示学习
文本增强的网络表示学习算法
GitHub - albertyang33/TADW: code for IJCAI2015 paper "Network Representation Learning with Rich Text Information"
4. 如何构建词空间向量和文本向量化
最近正好组内做了一个文档相似度的分享。决定回答一发。
首先,如果不局限于NN的方法,可以用BOW+tf-idf+LSI/LDA的体系搞定,也就是俗称的01或one hot representation。
其次,如果楼主指定了必须用流行的NN,俗称word-embedding的方法,当然首推word2vec(虽然不算是DNN)。然后得到了word2vec的词向量后,可以通过简单加权/tag加权/tf-idf加权等方式得到文档向量。这算是一种方法。当然,加权之前一般应该先干掉stop word,词聚类处理一下。
还有,doc2vec中的paragraph vector也属于直接得到doc向量的方法。特点就是修改了word2vec中的cbow和skip-gram模型。依据论文《Distributed Representations of Sentences and Documents》(ICML 2014)。
还有一种根据句法树加权的方式,是ICML2011提出的,见论文《Parsing Natural Scenes and Natural Language with Recursive Neural Networks》,后续也有多个改编的版本。
当然,得到词向量的方式不局限于word2vec,RNNLM和glove也能得到传说中高质量的词向量。
ICML2015的论文《From Word Embeddings To Document Distances, Kusner, Washington University》新提出一种计算doc相似度的方式,大致思路是将词之间的余弦距离作为ground distance,词频作为权重,在权重的约束条件下,求WMD的线性规划最优解。
最后,kaggle101中的一个word2vec题目的tutorial里作者如是说:他试了一下简单加权和各种加权,不管如何处理,效果还不如01,归其原因作者认为加权的方式丢失了最重要的句子结构信息(也可以说是词序信息),而doc2vec的方法则保存了这种信息。
在刚刚结束的ACL2015上,似乎很多人提到了glove的方法,其思想是挖掘词共现信息的内在含义,据说是基于全局统计的方法(LSI为代表)与基于局部预测的方法(word2vec为代表)的折衷,而且输出的词向量在词聚类任务上干掉了word2vec的结果,也可以看看。《GloVe: Global Vectors forWord Representation》
5. r ackownledgement 哪个package
最近我们实验室整理发布了一批开源NLP工具包,这里列一下,欢迎大家使用。未来不定期更新。
2016年3月31日更新,在THULAC新增Python版本分词器,欢迎使用。
中文词法分析
THULAC:一个高效的中文词法分析工具包
包括中文分词、词性标注功能。已经提供C++、Java、Python版本。
中文文本分类
THUCTC: 一个高效的中文文本分类工具
提供高效的中文文本特征提取、分类训练和测试功能。
THUTag: 关键词抽取与社会标签推荐工具包
GitHub - YeDeming/THUTag: A Package of Keyphrase Extraction and Social Tag Suggestion
提供关键词抽取、社会标签推荐功能,包括TextRank、ExpandRank、Topical PageRank(TPR)、Tag-LDA、Word Trigger Model、Word Alignment Model等算法。
PLDA / PLDA+: 一个高效的LDA分布式学习工具包
知识表示学习
知识表示学习工具包
GitHub - Mrlyk423/Relation_Extraction: Knowledge Base Embedding
包括TransE、TransH、TransR、PTransE等算法。
考虑实体描述的知识表示学习算法
GitHub - xrb92/DKRL: Representation Learning of Knowledge Graphs with Entity Descriptions
词表示学习
跨语言词表示学习算法
Learning Cross-lingual Word Embeddings via Matrix Co-factorization
主题增强的词表示学习算法
GitHub - largelymfs/topical_word_embeddings: A demo code for topical word embedding
可解释的词表示学习算法
GitHub - SkTim/OIWE: Online Interpretable Word Embeddings
考虑字的词表示学习算法
GitHub - Leonard-Xu/CWE
网络表示学习
文本增强的网络表示学习算法
GitHub - albertyang33/TADW: code for IJCAI2015 paper "Network Representation Learning with Rich Text Information"
6. 如何用 word2vec 计算两个句子之间的相似度
计算A,B句子里每两个词的距离 i.e. D = dist(A_i, B_j) over all i,j(这里用Euclidean distance b/t the word embeddings, from w2v)。
生成optimal transport (也叫earth mover's distance a.k.a. EMD)problem,给solver(网上有很多各种语言的EMD solver)。输入是D, A所有词的词频(A_BOW i.e. bag of words), B所有词的词频(B_BOW)。
EMD基本概念就是把两个句子看成两个probability distribution的histogram,A的是山,B的是坑,用A的山填B的坑,每两个histogram格之间搬运一个词频单元需要做的功是两词间的距离。EMD返回的就是A,B的距离,1,2,3对每两篇文章可以CPU平行。
7. 自然语言处理 语言模型 有哪些
最近我们实验室整理发布了一批开源NLP工具包,这里列一下,欢迎大家使用。
未来不定期更新。2016年3月31日更新,在THULAC新增Python版本分词器,欢迎使用。
中文词法分析THULAC:一个高效的中文词法分析工具包包括中文分词、词性标注功能。已经提供C++、Java、Python版本。
中文文本分类THUCTC: 一个高效的中文文本分类工具提供高效的中文文本特征提取、分类训练和测试功能。THUTag: 关键词抽取与社会标签推荐工具包GitHub - YeDeming/THUTag: A Package of Keyphrase Extraction and Social Tag Suggestion提供关键词抽取、社会标签推荐功能,包括TextRank、ExpandRank、Topical PageRank(TPR)、Tag-LDA、Word Trigger Model、Word Alignment Model等算法。
PLDA / PLDA+: 一个高效的LDA分布式学习工具包/archive/p/plda/知识表示学习知识表示学习工具包GitHub - Mrlyk423/Relation_Extraction: Knowledge Base Embedding包括TransE、TransH、TransR、PTransE等算法。考虑实体描述的知识表示学习算法GitHub - xrb92/DKRL: Representation Learning of Knowledge Graphs with Entity Descriptions词表示学习跨语言词表示学习算法Learning Cross-lingual Word Embeddings via Matrix Co-factorization主题增强的词表示学习算法GitHub - largelymfs/topical_word_embeddings: A demo code for topical word embedding可解释的词表示学习算法GitHub - SkTim/OIWE: Online Interpretable Word Embeddings考虑字的词表示学习算法GitHub - Leonard-Xu/CWE网络表示学习文本增强的网络表示学习算法GitHub - albertyang33/TADW: code for IJCAI2015 paper "Network Representation Learning with Rich Text Information"。
8. 如何操作 Office Open XML 格式文档
创建一个Office Open XML格式文件此部分中,您将检测一个包含文本,图像和属性的示例Word 2007文档的XML文件格式。
在Word中创建一个Office Open XML 格式文档1.启动 Word 2007。2.在新建文档中,粘贴以下文本:Soaring with the American Bald EagleLorem ipsum dolor sit amet, consectetuer adipiscing elit. Nulla rutrum. Phasellus feugiat bibendum urna. Aliquam lacinia diam ac felis. In vulputate semper orci. Quisque blandit. Mauris et nibh. Aenean nulla. Mauris placerat tempor libero.Pellentesque bibendum. In consequat, sem molestie iaculis venenatis, orci nunc imperdiet justo, id ultricies ligula elit sit amet ante. Sed quis sem. Ut accumsan nulla vel nisi. Ut nulla enim, ullamcorper vel, semper vitae, vulputate vel, mi. Duis id magna a magna commodo interdum.3.高亮显示Soaring with the American Bald Eagle,然后在 开始标签,在样式组中,设置样式为标题。
4.下一步,在文档中插入一张图片:1.将鼠标指针放置在第一段落的末尾,并且点击回车插入新行。2.然后,点击插入标签,点击图片,找到一个图片文件 (例如包含在下载中的Eagle1.gif文件),然后点击插入。
5.现在添加一个文档属性:1.点击Microsoft Office按钮,指向准备,然后点击属性 。2.在文档属性面板中,添加作者名称,标题,主题和备注,类似于以下:表1.文档属性设置属性 描述 作者Nancy Davolio标题Soaring with the American Bald Eagle主题Bald Eagles备注A study of the bald eagle6.下一步,在文档中添加一些批注1.在审阅标签下,点击新建批注。
2.在批注框中,输入This is my comment。此时您的文档类似于图1。
图1. 示例Office Word 2007 文档7.下一步,保存文档:1.点击Microsoft Office 按钮,然后点击另存为。2.在另存为文件类型列表中,选择 Word Document (*.docx),然后在文件名称框中输入SampleWordDocument.docx。
3.点击保存。8.关闭Word。
返回页首浏览Office Open XML格式文件在此部分中,您将浏览您刚刚创建的示例文档。浏览Office Open XML 格式文档1.打开Windows资源管理器。
2.找到 SampleWordDocument.docx文件,右键点击此文件,然后选择重命名。重要:使用下面的三个步骤来抽取Office Open XML格式文件。
根据您使用的操作系统不同(Windows XP或Windows Vista),第5步有所不同。3.在文件名称后面添加一个.zip扩展名,文件名称现在变为 SampleWordDocument.docx.zip。
4.当弹出警告信息时,点击确定。5.抽取容器文件:1.(如果您使用Windows XP:) 右键点击SampleWordDocument.docx.zip文件,指向打开方式,然后点击Compressed (zipped) Folders。
此时组成文档的文件夹和部件将会显示在资源管理器中。2.(如 果您使用Windows Vista:) 右键点击SampleWordDocument.docx.zip 文件,然后点击Extract All。
在Extract Compressed (Zipped) Folders 对话框中,接受默认位置或者选择一个新的位置,然后点击Extract。此时组成文档的文件夹和部件将会显示在资源管理器中。
在下面的步骤中,您将检测包含在文档中的关键部件。6.检测 [Content_Types].xml部件:1.使用Windows资源管理器,找到名为[Content_Types].xml的文件。
2.右 键点击此文件,指向打开方式,然后点击Internet Explorer。每一个Office Open XML格式文档的根下都有一个 [Content_Types].xml 组件。
[Content_Types].xml组件的作用就是确定文档中每个唯一类型组件。每个组件需要在这个组件中列出它自己的类型。
组件需要有可以识别的类 型,以便应用程序知道当渲染此文档时如何使用这个组件。类型也能够使您了解到组件的作用以及如何使用。
3.关闭文件。7.检测.rels 文件夹:关 联代表着两个组件之间的连接。
关联是存储在_rels子文件夹中的组件。任何组件都有相关联的组件,包含在同结构的_rels文件夹中,此文件夹包含了一 个定义它们关系的.rels组件。
子文件夹创建在与组件相同的文件夹下。一个关联的名称通过在原始组件的文件名后加上.rels扩展名获得 (用于文档文件的关联组件是一个例外;它的名称为“.rels”)。
1.在Windows资源管理器中,双击_rels 文件夹,然后右键点击.rels 文件。2.指向打开方式,点击选择程序,点击Internet Explorer,然后点击确定。
3.完成检测后,关闭IE。8.检测docProps 文件夹:2007版本中的文档属性在三个Microsoft Office System程序中是始终保持结构化的。
分成三个逻辑XML组件,它们被存储自docProps子文件夹下。这使得用户可以很容易的进行访问,因为他们它们在相同的位置并且不会和其它的文档内容混淆。
在Windows资源管理器中,双击docProps 文件夹,右键点击core.xml 文件,指向打开方式,然后点击Internet Explorer。9.检测core.xml 组件:打开 core.xml 组件,然后观察显示的您之前输入的属性。
core.xml组件持有用户输入的用来标识文档的属性,例如标题,主题和作者。10.检测custom.xml 组件:从Windows资源管理器中,在Internet Explorer中打开custom.xml。
custom.xml 组件包含了被用户,开发人员或者通过自定义逻辑添加到。
转载请注明出处51数据库 » wordembeddings