语料库标注软件

语料库到底是什么,有什么,做什么的？

机器翻译基本工作原理和基本分类机器翻译（Machine Translation,MT）是建立在多学科基础上的综合学科，现代理论语言学的发展，计算机科学的进步，信息学和概率统计学的应用，对机器翻译的发展和演变产生了重要影响。

机器翻译的基本思想是利用计算机对自然语言进行翻译，而各种机器翻译系统采用的技术和理念不尽相同；面对各种各样的机器翻译系统，文献上有各种分类方式。

本文根据所应用的基本工作原理对机器翻译系统分类作一综述。

1. 基本类型的机器翻译系统：现有的机器翻译系统按照其基本工作原理，可以分为基于规则的（Rule-Based）机器翻译，基于实例的（Example-Based）机器翻译和统计型的（Statistical）机器翻译这三种基本类型。

1.1. 基于规则的机器翻译系统（Rule-Based Machine Translation, RBMT）：其基本工作原理基于一个假设，即语言无限的句子可以由有限的规则推导出来。

基于这个假设的机器翻译方法又可以分为三类：直接翻译法（Direct Translation），中间语言法（Interlingual Approach），和转换法（Transfer Approach）。

它们都需要用到大规模的双语词典，需要用到源语言推导规则，语言转换规则和目标语言生成规则；其不同点在于对语言进行的分析深度不同。

如直译法几乎不需要进行语言分析，中间语言法和转换法需要对源语言和目标语言进行某种程度的语言分析。

1.1.1直接翻译法（Direct Translation）：这种翻译方法直接对源文字中的字词进行逐个翻译，译后文字顺序按照原文顺序进行排列。

这是基于规则的机器翻译的最早的工作方法。

这种译法简单、直观，其弊端也是明显的：由这种方法得到的翻译结果质量很不令人满意。

人们已经逐渐不再使用这种直接翻译法。

1.1.2中间语言法（Interlingual Approach）：这种翻译方法对源语言文字进行透彻的语言分析，将其转化为一种中间语言表达形式，进而由这种中间语言（Interlingua）进一步生成和输出符合目标语言语法规则的文字。

这种中间语言是一种非自然语言，即不是任何国家地区人们使用的语言；而且它是一种没有歧义的表达方式。

此外，中间语言不是唯一的，不同的系统采用不同的中间语言。

任意一种语言经由中间语言译为其它任意一种语言，理论上这种中间语言法是最有效率的一种翻译方式。

假定世界上总共有n种自然语言，使用中间语言法，只需2n个模块就可以解决所有自然语言之间的互译问题。

不使用中间语言，这些语言间的互译则需要n(n-1)个模块。

当n大于3时，2n小于n(n-1)。

我们知道，世界上的自然语言种类远大于3，因此2n个模块的数量远小于n(n-1)个模块的数量。

1.1.3 转换法（Transfer Approach）：这种翻译方法先对源语言文字进行一定程度的语言分析，去除语法的因素，生成源语言的中间表达方式，然后经由转换，生成目标语言的中间表达方式，再由目标语言的中间表达方式生成和输出符合目标语言语法规则的文字。

目前来说，转换法的语言分析和实现方法在三种方法中最为复杂，得到的翻译质量在三种方法中也是最好的，是目前商业上最常使用的翻译方法，在商业上最为成功。

在许多基于规则的机器翻译系统中，由语言学家辅助编写一系列关于源语言和目标语言的语法规则，以及将源语言数据转换为目标语言数据的转换规则。

然而使用全人工来制作这些规则非常昂贵、费时，而且易于出错。

一个解决方法便是将以往的历史翻译结果作为资源库，其中的源语言文字和它对应的目标语言译文作为例子，从中尝试提取出恰当的规则。

方法之一是对源文字和目标语言译文作人工标记以示关联。

Sato言和Nagao[1]研发出一个系统，用“平面依赖关系树”来表示源语言文字和目标语言文字。

这种关系树型数据结构是计算机高效识别的一种形式。

通常用两个层次代表源语言和目标语言之间的关联：第一层次依赖于文字的表面形式（如字、词顺序），用于源语言的分析和目标语言的生成；第二层次依赖于字词间的语义关联，用于从源语言向目标语言的转换。

这种机器翻译系统在基于规则的机器翻译基础上，利用了实例库的优势。

随着大量历史翻译结果的积累，出现了基于实例的机器翻译系统，人们将这些已经完成的翻译结果作为资源库，利用到机器翻译中来。

1.2. 基于实例的机器翻译（Example-Based Machine Translation,EBMT）：其基本工作原理是基于类比（Analogy）的原则，从实例库中匹配出与源文字片段最相似的文字片段，取出实例文字片段对应的目标语言翻译结果，进行适当的改造，最终得出完整的翻译结果。

基于实例的机器翻译其核心思想最早由MakonNagao 提出，他提出：人们在翻译简单句子时并不作深层语言分析，而是翻译。

首先把源句子分解成若干片段，然后将这些片段译为目标语言，每个片段的翻译都是通过与例句做匹配以类比的原则得到的，最后将这些译后句子组合成一个长句子。

1.2.1. 实例库的构成：实例库也称为语料库（Corpus），由已经完成的翻译结果构成。

这些现成的翻译结果也称为语料，包括人工翻译的结果和经过人工编辑的机器翻译结果。

语料库由双语对构成，包括源语言文字片段和目标语言译文文字片段...

机器翻译的基于统计

一般的基于语料库（Corpus-Based）的机译系统就是基于统计的机器翻译，因为这一领域异军突起，统计就是统计平行语料，由此衍生出许多不同的统计模型。

不同于基于规则的机译系统由词典和语法规则库构成翻译知识库，基于语料库的机译系统是以语料的应用为核心，由经过划分并具有标注的语料库构成知识库。

基于语料库的方法可以分为基于统计（Statistics-based）的方法和基于实例（Example-based）的方法。

基于统计的机器翻译基于统计的机器翻译方法把机器翻译看成是一个信息传输的过程，用一种信道模型对机器翻译进行解释。

这种思想认为，源语言句子到目标语言句子的翻译是一个概率问题，任何一个目标语言句子都有可能是任何一个源语言句子的译文，只是概率不同，机器翻译的任务就是找到概率最大的句子。

具体方法是将翻译看做对原文通过模型转换为译文的解码过程。

因此统计机器翻译又可以分为以下几个问题：模型问题、训练问题、解码问题。

所谓模型问题，就是为机器翻译建立概率模型，也就是要定义源语言句子到目标语言句子的翻译概率的计算方法。

而训练问题，是要利用语料库来得到这个模型的所有参数。

所谓解码问题，则是在已知模型和参数的基础上，对于任何一个输入的源语言句子，去查找概率最大的译文。

实际上，用统计学方法解决机器翻译问题的想法并非是 20 世纪 90 年代的全新思想，1949 年W. Weaver 在那个机器翻译备忘录就已经提出使用这种方法，只是由于乔姆斯基（N.Chomsky）等人对计的批判，这种方法很快就被放弃了。

批判的理由主要是一点：语言是无限的，基于经验主义的统计描述无法满足语言的实际要求。

另外，限于当时的计算机速度，统计的价值也无从谈起。

计算机不论从速度还是从容量方面都有了大幅度的提高，昔日大型计算机才能完成的工作，今日小型工作站或个人计算机就可以完成了。

此外，统计方法在语音识别、文字识别、词典编纂等领域的成功应用也表明这一方法在语言自动处理领域还是很有成效的。

统计机器翻译方法的数学模型是由国际商业机器公司（IBM）的研究人员提出的。

在著名的文章《机器翻译的数学理论》中提出了由五种词到词的统计模型，称为 IBM 模型 1 到 IBM 模型 5。

这五种模型均源自信源-信道模型，采用最大似然法估计参数。

由于当时（1993年）计算条件的限制，无法实现基于大规模数据训练。

其后，由Stephan Vogel提出了基于隐马尔科夫模型的统计模型也受到重视，该模型被用来替代IBM Model 2。

在这时的研究中，统计模型只考虑了词与词之间的线性关系，没有考虑句子的结构。

这在两种语言的语序相差较大时效果可能不会太好。

如果在考虑语言模型和翻译模型时将句法结构或语义结构考虑进来，应该会得到更好的结果。

在此文发表后6年，一批研究人员在约翰·霍普金斯大学的机器翻译夏令营上实现了GIZA软件包。

Franz Joseph Och 在随后对该软件进行了优化，加快训练速度。

特别是IBM Model 3 到 5的训练。

同时他提出了更加复杂的Model 6。

Och发布的软件包被命名为GIZA++，直到现在，GIZA++还是绝大部分统计机器翻译系统的基石。

针对大规模语料的训练，已有GIZA++的若干并行化版本存在。

基于词的统计机器翻译的性能却由于建模单元过小而受到限制。

因此，许多研究者开始转向基于短语的翻译方法。

Franz-Josef Och提出的基于最大熵模型的区分性训练方法使统计机器翻译的性能极大提高，在此后数年，该方法的性能远远领先于其他方法。

一年后Och又修改最大熵方法的优化准则，直接针对客观评价标准进行优化，从而诞生了今天广泛采用的最小错误训练方法（Minimum Error Rate Training）。

另一件促进统计机器翻译进一步发展的重要发明是自动客观评价方法的出现，为翻译结果提供了自动评价的途径，从而避免了繁琐与昂贵的人工评价。

最为重要的评价是BLEU评价指标。

绝大部分研究者仍然使用BLEU作为评价其研究结果的首要的标准。

Moses 是维护较好的开源机器翻译软件，由爱丁堡大学研究人员组织开发。

其发布使得以往繁琐复杂的处理简单化。

Google 的在线翻译已为人熟知，其背后的技术即为基于统计的机器翻译方法，基本运行原理是通过搜索大量的双语网页内容，将其作为语料库，然后由计算机自动选取最为常见的词与词的对应关系，最后给出翻译结果。

不可否认，Google 采用的技术是先进的，但它还是经常闹出各种“翻译笑话” 。

其原因在于：基于统计的方法需要大规模双语语料，翻译模型、语言模型参数的准确性直接依赖于语料的多少，而翻译质量的高低主要取决于概率模型的好坏和语料库的覆盖能力。

基于统计的方法虽然不需要依赖大量知识，直接靠统计结果进行歧义消解处理和译文选择，避开了语言理解的诸多难题，但语料的选择和处理工程量巨大。

因此通用领域的机器翻译系统很少以统计方法为主。

基于实例的机器翻译与统计方法相同，基于实例的机器翻译方法也是一种基于语料库的方法，其基本思想由日本著名的机器翻译专家长尾真提出，他研究了外语初学者的基本模式，发现初学外语的人总是先记住最基...

大学生用什么英语词典好？

作者：派姐儿链接：https://www.zhihu.com/question/29810403/answer/47511817来源：知乎著作权归作者所有。

商业转载请联系作者获得授权，非商业转载请注明出处。

这问题必须放着我来，日本留学我是亲身研究党，名古屋大学是终极目标，哦也。

日本留学你就走官方就对了，那么小的国家，哪儿需要那么多研究方式啊。

我倾情奉献一下，平时我都是用这些网站的内容忽悠不了解日本留学的人的，我跟你说，妥妥的。

http://www.jasso.go.jp/study_j/sgtj_chi.html日本留学指南http://www.g-studyinjapan.jasso.go.jp/cn/日本留学门户网站http://www.jpss.jp/zh-cn/search/?tb=1搜索日本院校设置的神器Study In Japan Comprehensive Guide-Chinese日本留学综合指南http://www.jpss.jp/zh-cn/scholarship/翻奖学金的这些网站还有他们的延伸网站我就不一个个的搬运了。

哦还有，日本驻华大使馆官网、官微、官博、官豆瓣一向对留学这事儿很看重，资料乌央乌央的。

跟语言有关的微信号顺手推荐几个（微信内容节选的，画风变了请无视）：标准日本语：标日是日语党耳熟能详的教科书，派姐儿自己早年也是标日党，这个微信号目测是某日语培训机构运营的，因为里面大量投放了他们自己的教学视频，当然了，投放归投放，可以忽略。

内容是来自标日的教材，所以作为入门还是不错的，唯一的建议是能不能不要一个微信文章塞三个视频，我卡的都哭了。

（话说标日自己的官方微信却反而只知道卖书……）人民网日文版：嗯，看新闻的。

东方网日文版：新闻内容以上海为主，适合魔都党围观学习。

日语语料库：大连理工大学软件学院日语教研室出品，看起来像是学霸们出于乐趣自己研制的，有很多功能，可以围观NHK的新闻（视频版哦），还可以输入或者念出日语句子，后台给你分析解读，我回复“你平台做得很不错”结果对方回复“分词结果，“你是名词，平台是名词，做是动词”……。

NHK新闻：日本新闻的文字版，还有翻译，汉字都认真的标注了平假名，并且配备视频版本，可以听力和阅读一起训练，贴心的令人流泪。

电子词典推荐几款

诺亚舟ND520 09年最新款电子词典功能巨强大跨词典查询：高效便捷攻克生词整合机内多部词典资源，中英文单词相关释义一键联合查询。

特创超强单词学习功能：不仅能查单词基本释义，还能学习相关背景知识、习语、故事以及和该单词有关的英语谚语、绕口令、笑话及著名演讲等，中文词语的出处、相关谚语、谜语、典故等也可查询学习，知识无限拓展！浏览释义时遇陌生单词还可随意屏幕取词，扫除学习障碍！朗文当代高级英语辞典（英英·英汉双解）——培生教育出版社亚洲有限公司 Longman Dictionary of Contemporary English 作为一流的学习辞典，其权威性一直为世人所公认，本辞典就是根据其最新版本翻译而成的一部面向中国读者的双语辞典。

它秉随朗文辞典的一贯特色，同时紧扣时代脉搏，与时俱进，具有更浓郁的科学性和人文性。

特别是在采用著名的BNC语料库进行修订之后，例句真实自然、时尚规范，及时反映语言发展的潮流，而且包含各国英语的不同用法，是名副其实的世界英语辞典。

收词广泛：共收词82,000余条，含新增词汇2,000余条释义简明：用常见的2,000词汇解释所有词条，浅显易懂提供词频：首次标注口语和笔语中常见词汇的等级，便于读者学习突出搭配：数千处词条搭配让读者既掌握词汇，又能灵活运用注重口语：强调词汇和短语在实际应用中的自然表达详解语法：根据语料库数据分析得出数百项语法说明，科学严谨查找方便：在多义项的词条中提供导向标记，方便查阅服务测试：专门提供50页IELTS（雅思）常考词汇，注重测评。

《新英汉词典世纪版》---上海译文出版社授权使用一、英美兼收，以英式英语（象牛津这类词典）为基础，同时也吸收了美式英语的很多变化二、与牛津相比较，属于阅读型词典，除了充分重视基础词汇、单词本意的解释外，还特别重视对单词的引申意、派生意的解释，充分考虑时代、社会的发展所带来的新词、新意，使单词的解释更为丰富、详细和全面。

（以网吧、上网为例，7年前我们还没听说过，而今却是现代生活的一部分。

70年代，多数人连电脑都没听说过，而新英汉就已经收录了硬件（hardware）\软件（software）三、新英汉是目前中国大陆英语类词典中销量领先的，其累计销售量已超过1100万册，其权威性、实用性已被广泛认可，因此我国现有的全部大学英语四六级教程都据此编写。

它所收录的词汇是牛津双解的2倍，朗文词典的2倍，比经典美语词典还多2万，同牛津当代相当。

四、新英汉是由一批既精通英文又深谙中国文化精髓的英语教育名家所编撰的，它高度重视中国学生学习英语的特性，因此它是非常适合中国人使用的英语词典（仅TAKE就有43项解释，114个例句和297个短语；而牛津当代有45项解释，可例句却只有39个）。

总结：《新英汉词典》是一部以收词多、释义较全较准确、例证丰富而闻名的学习型词典，深受广大英语学习者的喜爱。

《汉英大辞典》——由上海交通大学出版社授权四大特色：一、我国出版史上第一部融文、理、工、农、医、经、法、商多学科于一体，兼具普通汉英辞典与科技汉英辞典功能的大型汉英辞典。

二、容量大、功能全。

共列单字条目11000条，多字条目220000条（包括成语习语20000条，近10年来新词8000条），条目内另附复合词200000条。

全书字数达1550余万字。

三、查字便捷。

正文前汉语拼音章节、汉语拼音、部首和笔画等4个索引，读者可任选一种迅速查检。

四、例句丰富，是教学工作者、翻译工作者和外文写作者必备的工具书，也是文、理、工、农、医、经、法、商学生做英文作文或互查常用词及专有名词的最佳利器，一般社会人士亦可当成汉英百科全书用。

六大优点：一、具有文法解析功能；二、成语英译提供多项译法；三、成语与例句的英译文地道；四、单字条目词条细分词类；五、词语搭配齐全；六、书面语口语详细辨别《中国成语大辞典》----吉林教育出版社词汇量大。

接近2万条的词汇量，囊括一般人所需要的所有成语。

释义精炼。

先解释难懂的字，再串讲本义、引申义、比喻义，通俗易懂。

《现代汉语词典◆双语版》---外语教学与研究出版社授权使用高度的权威性：《现汉》是汉语学习权威的工具书，它包括了《新华字典》、《汉语词典》、《成语词典》的所有内容，无论在收词还是释义、例句等方面，都具有举世公认的权威性；

转载请注明出处51数据库 » 语料库标注软件

语料库到底是什么,有什么,做什么的？

推荐一个好一点的英英

机器翻译的基于统计

大学生用什么英语词典好？

电子词典推荐几款