solr 检索word

solr支持给word做索引吗

严格来说，lucene负责数据存储，而solr只是一个引擎提供搜索和插入而已，跟数据库的解释器一样，有什么好处呢，比如一个数据库有一个字段存了1000个字，你想从这些字里面搜一个词的时候，普通的数据库只会让你使用like去查询，他会遍历每个字去模糊匹配，效率很低，而且有些是无法查询的，当然除了像一些特殊的数据库带有分词，比如postgresql，那lucene做的事情就是分词，然后去匹配分词的词中是否有你想搜的词就好了，当然了，为了提高这种检索效率和内存节省底层做了很复杂的事情，可以这么简单的认为，全文搜索这件事情上数据库是无法满足的

如何使用solr创建富文本索引

展开全部 Solr支持从富文本文件中，如pdf,word中抽取内容建立索引。

首先，需要配置支持这一功能的requestHandler。

编辑solrconfig.xml，加入： content Content-Type ignored_ yyyy-MM-dd solr.extraction.ExtractingRequestHandler就是solr中用来处理富文本的handler。

为了使用这个类我们我们需要拷贝jar包：solr-dataimporthandler-extras.jar到lib目录，并确认solrconfig.xml中的lib配置包含它。

ExtractingRequestHandler底层实际是使用apache Tika进行文件内容抽取的，调用/update/extract完成文件索引调用/update/extrac的方式有很多种，下面介绍使用solr4j api在java工程里调用： //建立客户端连接SolrClient client=new HttpSolrClient(＂http://localhost:8080/solr/core1＂)；//单个文件索引public void indexFromFile(String fileName,String id) throws Exception{ //ContentStreamUpdateRequest 是专门用来提交文件的 ContentStreamUpdateRequest request=new ContentStreamUpdateRequest(＂/update/extract＂); String contentType=＂application/text＂; request.addFile(new File(fileName), contentType); //literal.xxx 文件以外的字段，xxx将直接映射到schema.xml中的同名字段 request.setParam(＂literal.id＂, String.valueOf(id)); request.setParam(＂literal.author＂, author); request.setParam(＂literal.title＂, tilte); request.setAction(AbstractUpdateRequest.ACTION.OPTIMIZE, true, true); client.request(request); client.commit(); }public static void main(String[] args) { try{ SolrMananger client=new SolrMananger(); client.indexFromFile(＂e:/apache-solr-ref-guide-5.3.pdf＂, 1, ＂Justn＂, ＂solr-ref＂); }catch(Exception e){ e.printStackTrace（)； } } 运行后，查看solr控制台，使用query验证文件是否成功索引。

solr富文本全量怎么实现呢

Solr支持从富文本文件中，如pdf,word中抽取内容建立索引。

首先，需要配置支持这一功能的requestHandler。

编辑solrconfig.xml，加入：12345678910contentContent-Typeignored_yyyy-MM-ddsolr.extraction.ExtractingRequestHandler就是solr中用来处理富文本的handler。

为了使用这个类我们我们需要拷贝jar包：solr-dataimporthandler-extras.jar到lib目录，并确认solrconfig.xml中的lib配置包含它。

ExtractingRequestHandler底层实际是使用apache Tika进行文件内容抽取的，调用/update/extract完成文件索引调用/update/extrac的方式有很多种，下面介绍使用solr4j api在java工程里调用：123456789101112131415161718192021222324//建立客户端连接SolrClient client=new HttpSolrClient(＂http://localhost:8080/solr/core1＂);//单个文件索引public void indexFromFile(String fileName,String id) throws Exception{//ContentStreamUpdateRequest 是专门用来提交文件的ContentStreamUpdateRequest request=new ContentStreamUpdateRequest(＂/update/extract＂);String contentType=＂application/text＂;request.addFile(new File(fileName), contentType);//literal.xxx 文件以外的字段，xxx将直接映射到schema.xml中的同名字段request.setParam(＂literal.id＂, String.valueOf(id)); request.setParam(＂literal.author＂, author); request.setParam(＂literal.title＂, tilte); request.setAction(AbstractUpdateRequest.ACTION.OPTI

solr实现原理,为什么用solr

你可以去看下java开源搜索引擎的源代码Java开源搜索引擎 Egothor Egothor是一个用Java编写的开源而高效的全文本搜索引擎。

借助Java的跨平台特性，Egothor能应用于任何环境的应用，既可配置为单独的搜索引擎，又能用于你的应用作为全文检索之用。

Nutch Nutch 是一个开源Java 实现的搜索引擎。

它提供了我们运行自己的搜索引擎所需的全部工具。

包括全文搜索和Web爬虫。

Lucene Apache Lucene是一个基于Java全文搜索引擎，利用它可以轻易地为Java软件加入全文搜寻功能。

Lucene的最主要工作是替文件的每一个字作索引，索引让搜寻的效率比传统的逐字比较大大提高，Lucen提供一组解读，过滤，分析文件，编排和使用索引的API，它的强大之处除了高效和简单外，是最重要的是使使用者可以随时应自已需要自订其功能。

Oxyus 是一个纯java写的web搜索引擎。

BDDBot BDDBot是一个简单的易于理解和使用的搜索引擎。

它目前在一个文本文件（urls.txt）列出的URL中爬行，将结果保存在一个数据库中。

它也支持一个简单的Web服务器，这个服务器接受来自浏览器的查询并返回响应结果。

它可以方便地集成到你的Web站点中。

Zilverline Zilverline是一个搜索引擎，它通过web方式搜索本地硬盘或intranet上的内容。

Zilverline可以从PDF, Word, Excel, Powerpoint, RTF, txt, java, CHM,zip, rar等文档中抓取它们的内容来建立摘要和索引。

从本地硬盘或intranet中查找到的结果可重新再进行检索。

Zilverline支持多种语言其中包括中文。

XQEngine XQEngine用于XML文档的全文本搜索引擎.利用XQuery做为它的前端查询语言.它能够让你查询XML文档集合通过使用关键字的逻辑组合. 有点类似于Google与其它搜索引擎搜索HTML文档一样.XQEngine只是一个用Java开发的很紧凑的可嵌入的组件. MG4J MG4J可以让你为大量的文档集合构建一个被压缩的全文本索引，通过使内插编码（interpolative coding）技术. JXTA Search JXTA Search是一个分布式的搜索系统.设计用在点对点的网络与网站上. YaCy YaCy基于p2p的分布式Web搜索引擎.同时也是一个Http缓存代理服务器.这个项目是构建基于p2p Web索引网络的一个新方法.它可以搜索你自己的或全局的索引，也可以Crawl自己的网页或启动分布式Crawling等. Red-Piranha Red-Piranha是一个开源搜索系统，它能够真正＂学习＂你所要查找的是什么.Red-Piranha可作为你桌面系统（Windows,Linux与Mac）的个人搜索引擎，或企业内部网搜索引擎，或为你的网站提供搜索功能，或作为一个P2P搜索引擎，或与wiki结合作为一个知识/文档管理解决方案，或搜索你要的RSS聚合信息，或搜索你公司的系统（包括SAP,Oracle或其它任何Database/Data source），或用于管理PDF,Word和其它文档，或作为一个提供搜索信息的WebService或为你的应用程序（Web,Swing,SWT,Flash,Mozilla-XUL,PHP, Perl或c#/.Net）提供搜索后台等等. LIUS LIUS是一个基于Jakarta Lucene项目的索引框架。

LIUS为Lucene添加了对许多文件格式的进行索引功能如： Ms Word,Ms Excel,Ms PowerPoint,RTF,PDF,XML,HTML,TXT,Open Office序列和JavaBeans。

针对JavaBeans的索引特别有用当我们要对数据库进行索引或刚好用户使用持久层ORM技术如：Hibernate,JDO,Torque,TopLink进行开发时。

Aperture Aperture这个Java框架能够从各种各样的资料系统（如：文件系统、Web站点、IMAP和Outlook邮箱）或存在这些系统中的文件（如：文档、图片）爬取和搜索其中的全文本内容与元数据。

它当前支持的文件格式如下： Plain text HTML, XHTML XML PDF (Portable Document Format) RTF (Rich Text Format) Microsoft Office: Word, Excel, Powerpoint, Visio, Publisher Microsoft Works OpenOffice 1.x: Writer, Calc, Impress, Draw StarOffice 6.x - 7.x+: Writer, Calc, Impress, Draw OpenDocument (OpenOffice 2.x, StarOffice 8.x) Corel WordPerfect, Quattro, Presentations Emails (.eml files) Apache Solr Solr是一个高性能，采用Java5开发，基于Lucene的全文搜索服务器。

文档通过Http利用XML加到一个搜索集合中。

查询该集合也是通过 http收到一个XML/JSON响应来实现。

它的主要特性包括：高效、灵活的缓存功能，垂直搜索功能，高亮显示搜索结果，通过索引复制来提高可用性，提供一套强大Data Schema来定义字段，类型和设置文本分析，提供基于Web的管理界面等。

Paoding Paoding中文分词是一个使用Java开发的，可结合到Lucene应用中的，为互联网、企业内部网使用的中文搜索引擎分词组件。

Paoding 填补了国内中文分词方面开源组件的空白，致力于此并希翼成为互联网网站首选的中文分词开源组件。

Paoding中文分词追求分词的高效率和用户良好体验。

GitHub上面有哪些经典的java框架源码

展开全部Bazel：来自Google的构建工具，可以快速、可靠地构建代码。

官网Gradle：使用Groovy（非XML）进行增量构建，可以很好地与Maven依赖管理配合工作。

官网Buck:Facebook构建工具。

官网字节码操作编程方式操作字节码的开发库。

ASM：通用底层字节码操作和分析开发库。

官网Byte Buddy：使用流式API进一步简化字节码生成。

官网Byteman：在运行时通过DSL（规则）操作字节码进行测试和故障排除。

官网Javassist：一个简化字节码编辑尝试。

官网集群管理在集群内动态管理应用程序的框架。

Apache Aurora:Apache Aurora是一个Mesos框架，用于长时间运行服务和定时任务（cron job）。

官网Singularity:Singularity是一个Mesos框架，方便部署和操作。

它支持Web Service、后台运行、调度作业和一次性任务。

官网代码分析测量代码指标和质量工具。

Checkstyle：代码编写规范和标准静态分析工具。

官网Error Prone：将常见编程错误作为运行时错误报告。

官网FindBugs：通过字节码静态分析查找隐藏bug。

官网jQAssistant：使用基于Neo4J查询语言进行代码静态分析。

官网PMD：对源代码分析查找不良的编程习惯。

官网SonarQube：通过插件集成其它分析组件，对过去一段时间内的数据进行统计。

官网编译器生成工具用来创建解析器、解释器或编译器的框架。

ANTLR：复杂的全功能自顶向下解析框架。

官网JavaCC:JavaCC是更加专门的轻量级工具，易于上手且支持语法超前预测。

官网外部配置工具支持外部配置的开发库。

config：针对JVM语言的配置库。

官网owner：减少冗余配置属性。

官网约束满足问题求解程序帮助解决约束满足问题的开发库。

Choco：可直接使用的约束满足问题求解程序，使用了约束规划技术。

官网JaCoP：为FlatZinc语言提供了一个接口，可以执行MiniZinc模型。

官网OptaPlanner：企业规划与资源调度优化求解程序。

官网Sat4J：逻辑代数与优化问题最先进的求解程序。

官网持续集成Bamboo:Atlassian解决方案，可以很好地集成Atlassian的其他产品。

可以选择开源许可，也可以购买商业版。

官网CircleCI：提供托管服务，可以免费试用。

官网Codeship：提供托管服务，提供有限的免费模式。

官网fabric8：容器集成平台。

官网Go:ThoughtWork开源解决方案。

官网Jenkins：支持基于服务器的部署服务。

官网TeamCity:JetBrain的持续集成解决方案，有免费版。

官网Travis：通常用作开源项目的托管服务。

官网Buildkite：持续集成工具，用简单的脚本就能设置pipeline，而且能快速构建，可以免费试用。

官网CSV解析简化CSV数据读写的框架与开发库uniVocity-parsers：速度最快功能最全的CSV开发库之一，同时支持TSV与固定宽度记录的读写。

官网数据库简化数据库交互的相关工具。

Apache Phoenix:HBase针对低延时应用程序的高性能关系数据库层。

官网Crate：实现了数据同步、分片、缩放、复制的分布式数据存储。

除此之外还可以使用基于SQL的语法跨集群查询。

官网Flyway：简单的数据库迁移工具。

官网H2：小型SQL数据库，以可以作为内存数据库使用著称。

官网HikariCP：高性能JDBC连接工具。

官网JDBI：便捷的JDBC抽象。

官网Protobuf:Google数据交换格式。

官网SBE：简单二进制编码，是最快速的消息格式之一。

官网Wire：整洁轻量级协议缓存。

官网帮实现依赖翻转范式的开发库。

官网Apache DeltaSpike:CDI扩展框架。

官网Dagger2：编译时注入框架，不需要使用反射。

官网Guice：可以匹敌Dagger的轻量级注入框架。

官网HK2：轻量级动态依赖注入框架。

官网开发流程增强工具从最基本的层面增强开发流程。

ADT4J：针对代数数据类型的JSR-269代码生成器。

官网AspectJ：面向切面编程（AOP）的无缝扩展。

官网Auto：源代码生成器集合。

官网DCEVM：通过修改JVM在运行时支持对已加载的类进行无限次重定义。

官网HotswapAgent：支持无限次重定义运行时类与资源。

官网Immutables：类似Scala的条件类。

官网JHipster：基于Spring Boot与AngularJS应用程序的Yeoman源代码生成器。

官网JRebel：无需重新部署，可以即时重新加载代码与配置的商业软件。

官网Lombok：减少冗余的代码生成器。

官网Spring Loaded：类重载代理。

官网vert.x：多语言事件驱动应用框架。

官网分布式应用用来编写分布式容错应用的开发库和框架。

Akka：用来编写分布式容错并发事件驱动应用程序的工具和运行时。

官网Apache Storm：实时计算系统。

官网Apache ZooKeeper：针对大型分布式系统的协调服务，支持分布式配置、同步和名称注册。

官网Hazelcast：高可扩展内存数据网格。

官网Hystrix：提供延迟和容错。

官网JGroups：提供可靠的消息传递和集群创建的工具。

官网Orbit：支持虚拟角色（Actor），在传统角色的基础上增加了另外一层抽象。

官网Quasar：为JVM提供轻量级线程和角色。

官网分布式数据库对应用程序而言，在分布式系统中的数据库看起来就像是只有一个数据源。

Apache Cassandra：列式数据库，可用性高且没有单点故障。

官网Apache HBase：针对大数据的Hadoop数据库。

官网Druid：实时和...

it行业有哪些职位？

展开全部 1.产品2.UI3.CSS4.JS5.后端（Java/php/python）6.DBA(mysql/oracle)7.运维（OP） 8.测试（QA）9.算法（分类/聚类/关系抽取/实体识别）10.搜索（Lucene/Solr/elasticSearch）11.大数据工程师（Hadoop）12.Android13.IOS14.运营一.产品1 工作内容：了解用户需求，做竞品调研，画产品原型，写产品文档，讲解产品需求，测试产品Bug，收集用户反馈，苦练金刚罩以防止程序员拿刀砍。

2 需要技能：PPT,Word, Axure,XP,MVP，行业知识，沟通。

二. UI1 工作内容：收到产品原型，给原型上色，偶尔会自作主张调整下原型的位置，出不同的风格给老板和客户选，然后听他们的意见给出一个自己极不喜欢的风格，最好给Android,IOS或者是CSS做好标注，还有的需要直接帮他们切好图，最后要练出来象素眼，看看这些不靠谱的程序员们有没有上错色或者是有偏差。

2 需要技能：PS,Illustrator,Sketch，耐性，找素材。

三. CSS1 工作内容：产品设计好原型，UI做出来了效果图，剩下的就是CSS工程师用代码把静态文件写出来的。

2 需要技能：环境【IDE(WEBStorm,Sublime,EditPlus)，源码管理（SVN/Git） ,WEB服务器（nginx）】基础【PS，域名，Html,Html5,CSS,CSS3】扩展【自适应，响应式，Bootstrap,Less,Flex】四 .JS 1 工作内容：JS工程师其实分成两类，在之前讲CSS的时候已经提到过，一个是套页面的，一个是前后端分离的。

对这两个概念还是分不太清的，可以回过头去看CSS的部分。

2 需要技能：环境【IDE(WEBStorm,Sublime,EditPlus)，源码管理（SVN/Git） ,WEB服务器（nginx）】基础【Http,REST，跨域，语法，组件，F12,Json,Websocket】框架【JQuery,AngularJS,Bower,RequireJS,GruntJS,ReactJS,PhoneGap】业务【金融，教育，医疗，汽车，房产等等等等各种行业】五 .后端（Java/python/go） 1 工作内容：大部分的后端工程师都停留在功能实现的层面上。

这是现在国内二流或者是三流的公司的现状，甚至是在某些一流的公司。

很多时候都是架构师出了架构设计，更多的外包公司根本就是有DBA来做设计，然后后端程序员从JS到CSS到Java全写，完全就是一个通道，所有的复杂逻辑全部交给DB来做，这也是几年前DBA很受重视的原因。

2 需要技能：环境【IDE(Idea/Eclipse,Maven,jenkins,Nexus,Jetty,Shell,Host)，源码管理（SVN/Git） ,WEB服务器（nginx,tomcat,Resin）】基础【Http,REST，跨域，语法，Websocket，数据库，计算机网络，操作系统，算法，数据结构】框架【Spring,AOP,Quartz,Json TagLib,tiles,activeMQ,memcache,redis,mybatis,log4j,junit等等等等等】业务【金融，教育，医疗，汽车，房产等等等等各种行业】。

六 .DBA 1 工作内容：如果你做了一个DBA，基本上会遇到两种情况。

一种是你的后端工程师懂架构，知道怎么合便使用DB，知道如何防止穿透DB，那么恭喜你，你只是需要当一个DB技术兜底的顾问就好，基本上没什么活可以做，做个监控，写个统计就好了。

你可以花时间在MongoDB了，Hadoop了这些，随便玩玩儿。

再按照我之前说的，做好数据备份。

如果需求变动比较大，往往会牵涉到一些线上数据的更改，那么就在发布的时候安静的等着，等着他们出问题。

。

如果不出问题就可以回家睡觉了。

2 需要技能：环境【Linux,Mysql,Oracle,MongoDB,Hadoop】工具【各种DB的版本，工具，备份，日志等】。

七. 运维 1 工作内容：运维的工作大概分成几个部分，我对于修真院学习运维的少年们都这么说，大概是：A。

基础环境的搭建和常用软件的安装和配置（兼网管的还有各种程控机），常用软件指的是SVN,Git，邮箱这种，更细节的内容请参考修真院对于运维职业的介绍。

B。

日常的发布和维护，如刚刚讲到的一样，测试环境和线上环境的发布和记录，原则上，对线上所有的变更都应该有记录。

C。

数据的备份和服务的监控&安全配置。

各种数据，都要做好备份和回滚的手段，提前准备好各种紧急预案，服务的监制要做好。

安全始终都是不怎么被重点考虑的问题，因为这个东西无底洞，你永远不知道做到什么程度算是比较安全了，所以大多数都是看着情况来。

D。

运维工具的编写。

这一点在大的云服务器商里格外常见，大公司也是一样的。

E。

Hadoop相关的大数据体系架构的运维，确实有公司在用几百台机器做Hadoop，所以虽然不常见，我还是列出来吧。

2 需要技能：环境【Linux,Mysql,Oracle,MongoDB,Hadoop,nginx,apache,F5,lvs,***,iptable,svn,git,memcache,redis】工具【linux 常用工具，Mysql常用工具，Jenkins,zabbix,nagios】自动化运维【openstack,docker,ansible】语言【shell,python】八 .QA 1 工作内容：QA需要了解需求，很多公司会要求QA写测试用例，我觉得是扯淡。

完全是在浪费时间。

通常开发三周，QA测试的时间只有一周到一周半。

还有关于提前写测试用例的，都不靠谱。

2 需要技能：流程【Bug修复流程，版本发布流程】工具【禅道，BugZilla,Jira,Excel表格来统计Bug数，自动化测试】性格【严谨，耐心】九. 算法工程师 1 工作内容：算法工程师的工作内容，大...

算法工程师就业前景

展开全部一、算法工程师简介（通常是月薪15k以上，年薪18万以上，只是一个概数，具体薪资可以到招聘网站如拉钩，猎聘网上看看）算法工程师目前是一个高端也是相对紧缺的职位；算法工程师包括音/视频算法工程师（通常统称为语音/视频/图形开发工程师）、图像处理算法工程师、计算机视觉算法工程师、通信基带算法工程师、信号算法工程师、射频/通信算法工程师、自然语言算法工程师、数据挖掘算法工程师、搜索算法工程师、控制算法工程师（云台算法工程师，飞控算法工程师，机器人控制算法）、导航算法工程师（@之介感谢补充）、其他【其他一切需要复杂算法的行业】专业要求：计算机、电子、通信、数学等相关专业；学历要求：本科及其以上的学历，大多数是硕士学历及其以上；语言要求：英语要求是熟练，基本上能阅读国外专业书刊，做这一行经常要读论文；必须掌握计算机相关知识，熟练使用仿真工具MATLAB等，必须会一门编程语言。

算法工程师的技能树（不同方向差异较大，此处仅供参考）1 机器学习2 大数据处理：熟悉至少一个分布式计算框架Hadoop/Spark/Storm/ map-reduce/MPI3 数据挖掘4 扎实的数学功底5 至少熟悉C/C++或者Java，熟悉至少一门编程语言例如java/python/R加分项：具有较为丰富的项目实践经验（不是水论文的哪种）二、算法工程师大致分类与技术要求（一）图像算法/计算机视觉工程师类包括图像算法工程师，图像处理工程师，音/视频处理算法工程师，计算机视觉工程师要求l 专业：计算机、数学、统计学相关专业；l 技术领域：机器学习，模式识别l 技术要求：（1）精通DirectX HLSL和OpenGL GLSL等shader语言，熟悉常见图像处理算法GPU实现及优化；（2）语言：精通C/C++;(3) 工具：Matlab数学软件，CUDA运算平台，VTK图像图形开源软件【医学领域：ITK，医学图像处理软件包】（4）熟悉OpenCV/OpenGL/Caffe等常用开源库；（5）有人脸识别，行人检测，视频分析，三维建模，动态跟踪，车识别，目标检测跟踪识别经历的人优先考虑；（6）熟悉基于GPU的算法设计与优化和并行优化经验者优先；（7）【音/视频领域】熟悉H.264等视频编解码标准和FFMPEG，熟悉rtmp等流媒体传输协议，熟悉视频和音频解码算法，研究各种多媒体文件格式，GPU加速；应用领域：（1）互联网：如美颜app(2) 医学领域：如临床医学图像（3）汽车领域（4）人工智能相关术语：（1） OCR:OCR (Optical Character Recognition，光学字符识别)是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程（2） Matlab：商业数学软件；（3） CUDA: (Compute Unified Device Architecture)，是显卡厂商NVIDIA推出的运算平台（由ISA和GPU构成）。

CUDA?是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题（4） OpenCL: OpenCL是一个为异构平台编写程序的框架，此异构平台可由CPU,GPU或其他类型的处理器组成。

（5） OpenCV：开源计算机视觉库；OpenGL：开源图形库；Caffe：是一个清晰，可读性高，快速的深度学习框架。

（6） CNN：（深度学习）卷积神经网络（Convolutional Neural Network）CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。

（7）开源库：指的是计算机行业中对所有人开发的代码库，所有人均可以使用并改进代码算法。

（二）机器学习工程师包括机器学习工程师要求l 专业：计算机、数学、统计学相关专业；l 技术领域：人工智能，机器学习l 技术要求：（1）熟悉Hadoop/Hive以及Map-Reduce计算模式，熟悉Spark、Shark等尤佳；（2）大数据挖掘；（3）高性能、高并发的机器学习、数据挖掘方法及架构的研发；应用领域：（1）人工智能，比如各类仿真、拟人应用，如机器人（2）医疗用于各类拟合预测（3）金融高频交易（4）互联网数据挖掘、关联推荐（5）无人汽车，无人机相关术语：（1） Map-Reduce:MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。

概念＂Map（映射）＂和＂Reduce（归约）＂，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。

（三）自然语言处理工程师包括自然语言处理工程师要求l 专业：计算机相关专业；l 技术领域：文本数据库l 技术要求：（1）熟悉中文分词标注、文本分类、语言模型、实体识别、知识图谱抽取和推理、问答系统设计、深度问答等NLP 相关算法；（2）应用NLP、机器学习等技术解决海量UGC的文本相关性；（3）分词、词性分析、实体识别、新词发现、语义关联等NLP基础性研究与开发；（4）人工智能，分布式处理Hadoop;(5) 数据结构和算法；应用领域：口语输入、书面语输入、语言分析和理解、语言生成、口语输出技术、话语分析与对话、文献自动处理、多语问题的计算机处理、多模态的计算机处理、信息传输与信息存储、自然语言处理中的数学方法、语言资源、自然语言处理系统的评测。

算法工程师应该学哪些