中文分词软件作用编写简单的中文分词程序

5月29日 17:25 电脑分硬件与软件,硬件就是平时电脑城给你配的那些主板呀,键盘呀,CPU呀...等等..实实在在的东西.

软件也就是像你现在用的windows操作系统.QQ呀.杀毒软件呀,微软开发的都是些软件........等等...多得数不清

这些软件都是用编程实现的,编程里面会有很多种语言,也会分低级语言.高级语言,编程说白点就是用代码算法一些东西组成到一起,实现一些功能.来满足我们容易的操作,都是为了方便人类的

如果你要学还是先从C语言学起吧,基础语言.

建议你买本书,或到网上找电子书下下来看看..

分词软件一般都用什么语言来做的呢？

jieba "结巴"中文分词：做最好的Python中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.

请大家提供一个能用的C#的中文分词软件开源的源代码

试试Lucene.net+盘古吧，这2个配合起来貌似效果还不错

继续一个汉语分词软件，能够自动分析出语句词性的那种。求求！！！！

汉语词法分析中间件能对汉语语言进行拆分处理，是中文信息处理必备的核心部件。灵玖综合了各家所长，采用条件随机场（Conditional Random Field,简称CRF）模型，分词准确率接近99%，具备准确率高、速度快、可适应性强等优势；特色功能包括：切分粒度可调整，融合20余部行业专有词典，支持用户自定义词典等。

词性标注能对汉语语言进行词性的自动标注，它能够真正理解中文，自动根据语言环境将词语诸如“建设”标注为“名词”或“动词”。灵玖采用条件随机场（Conditional Random Field,简称CRF）模型，一级词性标注准确率接近99%，具备准确率高、速度快、可适应性强等优势。

人名地名机构名识别能够自动挖掘出隐含在汉语中的人名、地名、机构名，所提炼出的词语不需要在词典库中事先存在，是对语言规律的深入理解和预测。采用条件随机场（Conditional Random Field,简称CRF）模型，识别准确率达到97%，速度达到10M/s，可在此基础上搭建各种多样化的统计和应用。

中文分词用c语言怎么写？不是c++

中文句法分析器 ctbparser

一个用C++实现的中文句法分析工具包，采用的是中文宾州树库标准(Chinese Tree Bank)，该句法分析工具采用了标准的图模型算法，即最大生成树算法(projective Maximum Spanning Tree)。

效率：ctbparser分词得到95.3% F1值，词性标注精度94.27%，句法分析精度81%。处理速度（包括分词、词性标注、句法分析）的速度是每秒30句，内存占用为270M。（操作系统：64位CentOS 5，CPU: Intel(R) Xeon(R) E5405, 2.00GHz）

授权协议： LGPL

最新版本：2012-2-3 0.12版本

中文分词开源版 CRF

CRF中文分词开源版仅仅包含CRF++软件包中分词解码器部分，简化了CRF++复杂代码结构，清除了分词解码器不需要的代码，大大提高了分词解码器的可读性和可懂度。

技术支持：http://langiner.blog.51cto.com/ 2010-08-20之后没有更新

授权协议：非开源

最新版本未知

中文分词库 NlpBamboo

bamboo是一个中文语言处理系统。目前包括中文分词和词性标注部分。算法字构词的分词方法CRF++。

效率未知

网站：http://code.google.com/p/nlpbamboo/

授权协议： BSD

最新版本：2010-10 1.1.1版本，官方说明短期后面不会更新

C语言开源高性能中文分词器 friso

friso中文分词器friso是使用c语言开发的一个开源中文分词器，使用流行的mmseg算法实现。

1。目前最高版本：friso 0.1，只支持UTF-8编码。【源码无需修改就能在各种平台下编译使用，加载完20万的词条，内存占用稳定为14M。】。

2。mmseg四种过滤算法，分词准确率达到了98.41%。

3。支持自定义词库。在dict文件夹下，可以随便添加/删除/更改词库和词库词条，并且对词库进行了分类。

4。词库使用了friso的Java版本jcseg的简化词库。

5。支持中英混合词的识别。例如：c语言，IC卡。

7。很好的英文支持，电子邮件，网址，小数，分数，百分数。

8。支持阿拉伯数字基本单字单位的识别，例如2012年，5吨，120斤。

9。自动英文圆角/半角，大写/小写转换。

二。分词速度

测试环境：2.8GHZ/2G/Ubuntu

简单模式：3.7M/秒

复杂模式：1.8M/秒

授权协议： LGPL

最新版本：2012-12-28日

综合来看

简易中文分词系统 SCWS和C语言开源高性能中文分词器 friso是在最近更新的，应该最近会有支持。

仅仅是个人理解。

下面是网上的一个人的评论：

但市场上提供免费甚至开源的分词引擎不多，中科院研发的ictclas30分词精确度和分词速度都非常不错，而且还有词性标注和自定义添加词的功能，可惜不开源。另外比较受欢迎的还有libmmseg和SCWS，因此都是开源的，不过经测试libmmseg的分词精度似乎不高，而SCWS由于使用了大量的递归，在生成词库的时候经常导致栈溢出（我是用vc2005编译的），需要自己将递归修改为循环，从演示的情况来看，SCWS的分词精度来算可以。

附录：编码转换

最新版的iconv（目前是libiconv-1.14.tar.gz）已经不再提供Visual C++的编译文件，最后一个支持VC编译的iconv版本是libiconv-1.11.1.tar.gz。虽然不是最新版，但是在Windows下编译，只好将就了，功能应该差不了多少。

下载libiconv-1.11.1.tar.gz并解压，打开命令提示行，进入libiconv-1.11.1目录，输入命令：

nmake -f Makefile.msvc NO_NLS=1 MFLAGS=-MD

nmake -f Makefile.msvc NO_NLS=1 MFLAGS=-MD PREFIX=C:\iconv install

那这个用c语言怎么写代码出来？不是用c++

谁用算法做过中文分词啊？

先下个分词包吧，有现成的算法提供，还有lucene先去了解下

程序员所说的「轮子」是什么东西？创造它有什么意义？

我觉得程序员这个工作是值得夸奖的，我很佩服这群人，因为他们用自己的手指敲出代码，完成编程。

那么程序员所说的“轮子”又有什么含义呢

个人层面来说

不仅锻炼了实际动手的能力，更深入的理解了造轮子过程中的各项细节以及如何服务于上层应用，用轮子的时候用的更爽更顺手。毕竟下面的总是想让上面的更舒服。

工作层面来说

轮子造的好，大家都看得到，升职加薪跳槽指日可待。

社会层面来说

不同的人实现的轮子必然有差异，侧面也推动了这个方向的深入研究和发展。

程序员圈里的轮子就是指各种已有的现成的，可以直接拿来用的解决方案。这个解决方案可以是他人已经实现的source code(eg:全球著名交友网站github)，也可以是任何依赖库(Caffe,Theano etc.)，或者是一些现成的企业或者单位提供开放的API(比如一些中文分词的接口)。

放到编程中，就是说业界已经有公认的软件或者库了。你明知道自己不可能比它做得更好，却还坚持要做。作为练习，造轮子可以增加自己的经验，很多事情看起来简单，但只有自己动手，才会发现其中的难点。当然实际开发中也有很多情况不得不造轮子，比如希望做到自主知识产权、刷 KPI 之类的；或者造轮子的人真的觉得自己开发的版本有更强的功能。

转载请注明出处51数据库 » 中文分词软件作用编写简单的中文分词程序