
一、自然语言理解的简介
Natural Language Understanding 俗称人机对话。人工智能的分支学科。研究用电子计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。这在当前新技术革命的浪潮中占有十分重要的地位。研制第 5代计算机的主要目标之一,就是要使计算机具有理解和运用自然语言的功能。
自然语言理解是一门新兴的边缘学科,内容涉及语言学、心理学、逻辑学、声学、数学和计算机科学,而以语言学为基础。自然语言理解的研究,综合应用了现代语音学、音系学语法学、语义学、语用学的知识,同时也向现代语言学提出了一系列的问题和要求。本学科需要解决的中心问题是:语言究竟是怎样组织起来传输信息的?人又是怎样从一连串的语言符号中获取信息的?
这一领域的研究将涉及自然语言,即人们日常使用的语言,包括中文、英文、俄文、日文、德文、法文等等,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
二、NLP(自然语言处理)技术的简介
处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguage Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。
三、有知道的,介绍一下WordNet在线词典
二 WordNet导言· 对于WordNet来说,10年后来清点清点得失似乎是合适的。
每个参与其事的研究人员都真诚地感受到它的缺点,并且他们从未觉得这是一个“完工”了的项目。事实上,WordNet仍在继续发展中。
· "WordNet: An Electronic Lexical Database"一书分三部分,16章。第一部分从第1章到第4章,前3章分别介绍WordNet中的名词,形容词,动词,第4章介绍WordNet的设计细节及相关软件的情况(这主要是由普林斯顿大学认知科学实验室的研究人员写的);第二部分和第三部分主要是由普林斯顿认知科学实验室之外的参加WordNet研究工作的研究人员撰写的。
第5章和第6章描述了WordNet的改进;第7章从形式化的概念分析的角度描述了WordNet;第8到第16章讨论了WordNet的各种不同应用。(一)计算机与词库(computers and lexicon)· 一个人即使不接受把人脑比作计算机的隐喻,也一定同意,计算机提供了一个良好的模式演练场,通过它,人们可以测试各种关于人类认知能力的理论模型。
· 越来越多的人认识到,一个大的词库对自然语言理解,人工智能的各方面研究都具有重要的价值。· 对大规模机器可读词典的需求同时也带来许多基础问题。
首先是如何构造这样一个词库,是手工编制还是机器自动生成?第二,词典中应包含什么样的信息?第三,词典应如何设计,即信息如何组织,以及用户如何访问?实际上,这些问题涉及到词典的编纂方法,词典的内容,词典的使用方式这一系列非常基础的问题。(二)构造词库数据库(constructing the lexical database)· 构建词典的两种基本方式:自动获取 / 手工编制。
手工构建词典的优点之一是便于创建更为丰富的词条信息;其次是便于控制。(三)WordNet的内容· WordNet的描述对象包含compound(复合词)、phrasal verb(短语动词)、collocation(搭配词)、idiomatic phrase(成语)、word(单词),其中word是最基本的单位。
· WordNet并不把词语分解成更小的有意义的单位(这是义素分析法/componential analyses的方法);WordNet也不包含比词更大的组织单位(如脚本、框架之类的单位);由于WordNet把4个开放词类区分为不同文件加以处理,因而WordNet中也不包含词语的句法信息内容;WordNet包含紧凑短语,如bad person,这样的语言成分不能被作为单个词来加以解释。· 人们经常区分词语知识和世界知识。
前者体现在词典中,后者体现在百科全书中。事实上二者的界限是模糊的。
比如hit(“打”)某人是一种带有敌意的行为,这是百科知识;而hit跟strike(“击”)多多少少同义,并且hit可以带一个直接宾语论元,这是词语知识。但hit的直接宾语应该是固体(而不是像gas这样的气体),这是词语知识还是百科知识就界限模糊了。
不过毫无疑问,要理解语言,这两部分知识是缺一不可的。Kay(1989)指出我们的大脑词库应该包含这两部分知识。
但是百科知识太多难以驾驭,WordNet不试图包括百科知识。不过,在WordNet中,对于一些不常见的专业概念,比如不常见的植物和动物,词语知识和百科知识是融合在一起的。
(四)WordNet的设计(the design of WordNet)· 一般的词典都是按照单词拼写的正字法原则进行组织的。但如果为了获得词语意义信息的目的,通过词语语义属性来组织词典就更值得去做了。
在线词典跟传统的纸张词典不同,允许使用者从不同的途径去访问词典信息。· 第一个以意义作为组织原则的词典是罗杰斯同义词词林(Roget's Thesaurus)。
传统的词典是通过提供给用户关于词语的信息来帮助用户理解那些他们不熟悉的词的概念意义。WordNet既非传统词典,也非同义词词林。
它混合了这两种类型的词典。(五)作为同义词词林的WordNet (WordNet as a thesaurus)· WordNet跟同义词词林相似的地方是:它也是以同义词集合(synset)作为基本建构单位进行组织的。
用户脑子里如果有一个已知的概念,就可以在同义词集合中中找到一个适合的词去表达这个概念。· 但WordNet不仅仅是用同义词集合的方式罗列概念。
同义词集合之间是以一定数量的关系类型相关联的。这些关系包括上下位关系、整体部分关系、继承关系等。
(六)作为一般词典的WordNet (WordNet as a dictionary)· WordNet跟传统的词典相似的地方是它给出了同义词集合的定义以及例句。在同义词集合中包含对这些同义词的定义。
对一个同义词集合中的不同的词,分别给出适合的例句来加以区分。(七)WordNet中的关系 (relations in WordNet)· 不同句法词类中的语义关系类型也不同,比如尽管名词都动词都是分层级组织词语之间的语义关系,但在名词中,上下位关系是hyponymy关系,而动词中是troponymy关系;动词中的entailment(继承)关系有些类似名词中的meronymy(整体部分)关系。
名词的meronymy关系下面还分出三种类型的子关系(见“WordNet中的名词”部分)。(八)网球问题(the tennis problem)· WordNet是基于同义性和反义(对义)性来描述词语和概念之间的各种语义关系类型的。
由于WordNet的注意力不是在文本和话语篇章水平上来描述词和概。
转载请注明出处51数据库 » 自然语言理解简介word
n薋-堏