5月29日 17:25 电脑分硬件与软件,硬件就是平时电脑城给你配的那些主板呀,键盘呀,CPU呀...等等..实实在在的东西.
软件也就是像你现在用的windows操作系统.QQ呀.杀毒软件呀,微软开发的都是些软件........等等...多得数不清
这些软件都是用编程实现的,编程里面会有很多种语言,也会分低级语言.高级语言,编程说白点就是用代码算法一些东西组成到一起,实现一些功能.来满足我们容易的操作,都是为了方便人类的
如果你要学还是先从C语言学起吧,基础语言.
建议你买本书,或到网上找电子书下下来看看..
分词软件一般都用什么语言来做的呢?
jieba "结巴"中文分词:做最好的Python中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.
请大家提供一个能用的C#的中文分词软件开源的源代码
试试Lucene.net+盘古吧,这2个配合起来貌似效果还不错
继续一个汉语分词软件,能够自动分析出语句词性的那种。求求!!!!
汉语词法分析中间件能对汉语语言进行拆分处理,是中文信息处理必备的核心部件。灵玖综合了各家所长,采用条件随机场(Conditional Random Field,简称CRF)模型,分词准确率接近99%,具备准确率高、速度快、可适应性强等优势;特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。
词性标注能对汉语语言进行词性的自动标注,它能够真正理解中文,自动根据语言环境将词语诸如“建设”标注为“名词”或“动词”。灵玖采用条件随机场(Conditional Random Field,简称CRF)模型,一级词性标注准确率接近99%,具备准确率高、速度快、可适应性强等优势。
人名地名机构名识别能够自动挖掘出隐含在汉语中的人名、地名、机构名,所提炼出的词语不需要在词典库中事先存在,是对语言规律的深入理解和预测。采用条件随机场(Conditional Random Field,简称CRF)模型,识别准确率达到97%,速度达到10M/s,可在此基础上搭建各种多样化的统计和应用。
中文分词用c语言怎么写?不是c++
中文句法分析器 ctbparser
一个用C++实现的 中文句法分析 工具包,采用的是中文宾州树库标准(Chinese Tree Bank),该句法分析工具采用了标准的图模型算法,即最大生成树算法(projective Maximum Spanning Tree)。
效率:ctbparser分词得到95.3% F1值,词性标注精度94.27%,句法分析精度81%。处理速度(包括分词、词性标注、句法分析)的速度是每秒30句,内存占用为270M。(操作系 统:64位CentOS 5,CPU: Intel(R) Xeon(R) E5405, 2.00GHz)
授权协议: LGPL
最新版本:2012-2-3 0.12版本
中文分词开源版 CRF
CRF中文分词开源版仅仅包含CRF++软件包中分词解码器部分,简化了CRF++复杂代码结构,清除了分词解码器不需要的代码,大大提高了分词解码器的可读性和可懂度。
技术支持:http://langiner.blog.51cto.com/ 2010-08-20之后没有更新
授权协议:非开源
最新版本未知
中文分词库 NlpBamboo
bamboo是一个中文语言处理系统。目前包括中文分词和词性标注部分。算法字构词的分词方法CRF++。
效率未知
网站:http://code.google.com/p/nlpbamboo/
授权协议: BSD
最新版本 :2010-10 1.1.1版本,官方说明短期后面不会更新
C语言开源高性能中文分词器 friso
friso中文分词器friso是使用c语言开发的一个开源中文分词器,使用流行的mmseg算法实现。
1。目前最高版本:friso 0.1,只支持UTF-8编码。【源码无需修改就能在各种平台下编译使用,加载完20万的词条,内存占用稳定为14M。】。
2。mmseg四种过滤算法,分词准确率达到了98.41%。
3。支持自定义词库。在dict文件夹下,可以随便添加/删除/更改词库和词库词条,并且对词库进行了分类。
4。词库使用了friso的Java版本jcseg的简化词库。
5。支持中英混合词的识别。例如:c语言,IC卡。
7。很好的英文支持,电子邮件,网址,小数,分数,百分数。
8。支持阿拉伯数字基本单字单位的识别,例如2012年,5吨,120斤。
9。自动英文圆角/半角,大写/小写转换。
二。分词速度
测试环境:2.8GHZ/2G/Ubuntu
简单模式:3.7M/秒
复杂模式:1.8M/秒
授权协议: LGPL
最新版本:2012-12-28日
综合来看
简易中文分词系统 SCWS和C语言开源高性能中文分词器 friso是在最近更新的,应该最近会有支持。
仅仅是个人理解。
下面是网上的一个人的评论:
但市场上提供免费甚至开源的分词引擎不多,中科院研发的ictclas30分词精确度和分词速度都非常不错,而且还有词性标注和自定义添加词的功能,可惜不开源。另外比较受欢迎的还有libmmseg和SCWS,因此都是开源的,不过经测试libmmseg的分词精度似乎不高,而SCWS由于使用了大量的递归,在生成词库的时候经常导致栈溢出(我是用vc2005编译的),需要自己将递归修改为循环,从演示的情况来看,SCWS的分词精度来算可以。
附录:编码转换
最新版的iconv(目前是libiconv-1.14.tar.gz)已经不再提供Visual C++的编译文件,最后一个支持VC编译的iconv版本是libiconv-1.11.1.tar.gz。虽然不是最新版,但是在Windows下编译,只好将就了,功能应该差不了多少。
下载libiconv-1.11.1.tar.gz并解压,打开命令提示行,进入libiconv-1.11.1目录,输入命令:
nmake -f Makefile.msvc NO_NLS=1 MFLAGS=-MD
nmake -f Makefile.msvc NO_NLS=1 MFLAGS=-MD PREFIX=C:\iconv install
那这个用c语言怎么写代码出来?不是用c++
那这个用c语言怎么写代码出来?不是用c++
谁用算法做过中文分词啊?
先下个分词包吧,有现成的算法提供,还有lucene先去了解下
程序员所说的「轮子」是什么东西?创造它有什么意义?
我觉得程序员这个工作是值得夸奖的,我很佩服这群人,因为他们用自己的手指敲出代码,完成编程。
个人层面来说
不仅锻炼了实际动手的能力,更深入的理解了造轮子过程中的各项细节以及如何服务于上层应用,用轮子的时候用的更爽更顺手。毕竟下面的总是想让上面的更舒服。
工作层面来说
轮子造的好,大家都看得到,升职加薪跳槽指日可待。
社会层面来说
不同的人实现的轮子必然有差异,侧面也推动了这个方向的深入研究和发展。
程序员圈里的轮子就是指各种已有的现成的,可以直接拿来用的解决方案。这个解决方案可以是他人已经实现的source code(eg:全球著名交友网站github),也可以是任何依赖库(Caffe,Theano etc.),或者是一些现成的企业或者单位提供开放的API(比如一些中文分词的接口)。
放到编程中,就是说业界已经有公认的软件或者库了。你明知道自己不可能比它做得更好,却还坚持要做。作为练习,造轮子可以增加自己的经验,很多事情看起来简单,但只有自己动手,才会发现其中的难点。当然实际开发中也有很多情况不得不造轮子,比如希望做到自主知识产权、刷 KPI 之类的;或者造轮子的人真的觉得自己开发的版本有更强的功能。
转载请注明出处51数据库 » 中文分词软件作用 编写简单的中文分词程序
灬小文-


