请问下大家知道有没有支持中文的词频统计软件?比如一篇WORD中出...
展开全部 #!/usr/bin/env python3#-*- coding:utf-8 -*-import os,random#假设要读取文件名为aa,位于当前路径filename='aa.txt'dirname=os.getcwd()f_n=os.path.join(dirname,filename)#注释掉的程序段,用于测试脚本,它生成20行数据,每行有1-20随机个数字,每个数字随机1-20'''test=''for i in range(20): for j in range(random.randint(1,20)): test+=str(random.randint(1,20))+' ' test+='\n'with open(f_n,'w') as wf: wf.write(test)'''with open(f_n) as f: s=f.readlines()#将每一行数据去掉首尾的空格和换行符,然后用空格分割,再组成一维列表words=[]for line in s: words.extend(line.strip().split(' '))#格式化要输出的每行数据,首尾各占8位,中间占18位def geshi(a,b,c): return alignment(str(a))+alignment(str(b),18)+alignment(str(c))+'\n'#中英文混合对齐 ,参考http://bbs.fishc.com/thread-67465-1-1.html ,二楼#汉字与字母 格式化占位 format对齐出错 对不齐 汉字对齐数字 汉字对齐字母 中文对齐英文#alignment函数用于英汉混合对齐、汉字英文对齐、汉英对齐、中英对齐def alignment(str1, space=8, align = 'left'): length = len(str1.encode('gb2312')) space = space - length if space >=length else 0 if align in ['left','l','L','Left','LEFT']: str1 = str1 + ' ' * space elif align in ['right','r','R','Right','RIGHT']: str1 = ' '* space +str1 elif align in ['center','c','C','Center','CENTER','centre']: str1 = ' ' * (space //2) +str1 + ' '* (space - space // 2) return str1w_s=geshi('序号','词','频率')#由(词,频率)元组构成列表,先按频率降序排序,再按词升序排序,多级排序,一组升,一组降,高级sortedwordcount=sorted([(w,words.count(w)) for w in set(words)],key=lambda l:(-l[1],l[0]))#要输出的数据,每一行由:序号(占8位)词(占20位)频率(占8位)+'\n'构成,序号=List.index(element)+1for (w,c) in wordcount: w_s+=geshi(wordcount.index((w,c))+1,w,c)#将统计结果写入文件ar.txt中writefile='ar.txt'w_n=os.path.join(dirname,writefile)with open(w_n,'w') as wf: wf.write(w_s)
如何用WPS或者Word自动提取关键词?或者显示词频较高的词?
巧记英语单词的方法一、根据音标记单词英语学习中的音标学习,就像汉语中的汉语拼音学习一样,在英语语言学习中,尤其对于初学者来说,至关重要。
他占据了英语学习者的大量时间与精力。
教会了音标等于教会了认识单词。
而且英语单词的发音都是有规律可循的。
甚至有些单词的音标就和单词的拼写是一模一样的。
例如win /win/ lift/lift/ print/print/一样,会发音就会写单词,会写单词就会发音。
再比如说有的音素就对应那几个字母,可以总结掌握其中的规律,以便单词的记忆,比方说k ch ck通常会发/ k/, c s通常会发/s/一样。
总结字母与字母组合的发音。
比如说comfortable这个单词,可以教同学先记com 再记fort 然后记able,这样分开,简单易记,一目了然。
上课的时候,可以叫学生自己先读,老师引导。
这样既节省时间,学生印又象深刻。
记住的单词也不易忘掉。
二、根据构词法记英语单词构词法是学习英语单词的又一法宝,有了这个法宝可以过五关斩六将,迅速拿下英语词汇。
英语中的词汇变化主要有加前缀,后缀,合成词,名词变形容词,副词,动词变名词等等。
这些都是有一定的规律可循的。
词的前缀往往可以将一个词变成它的反义词,例如happy与unhappy. regular与irregular, able与disable, possible与impossible等等。
还有代表一定意义的比如说trans意思是移动。
transportation交通,运输;transplant移植;transaction交易;translation翻译。
再比如inter是相互的意思。
例如interaction相互作用;interconnect使相互联系;intercourse 交际;international国际的.词的后缀主要用于变形容词,副词,动名词,第三人称单数,动词的过去式,动词变名词等等。
这儿就不一一列举了。
合成词,就像汉语中的会意字一样。
单个单词一起表达一个共同的意思。
三、创设情景,巧记英语单词《初中英语新课程标准》中明确指出:基础教育阶段英语课程的任务是是激发和培养学生学习英语的兴趣,使学生树立自信心,养成良好的学习习惯和形成有效的学习策略xcv58zu,发展自主学习的能力和合作精神。
使学生掌握一定的英语基础知识和听、说、读、写技能、形成一定的综合语言运用能力和创新精神。
帮助学生了解世界和中西文化的差异,拓展视野,培养爱国主义精神,形成健康的人生观,为他的终身学习和发展打下了良好的基础。
培养学生的观察、记忆、思维、想象力和创新精神帮助学生了解世界和中西文化的差异,拓展视野,培养爱国主义精神,形成健康的人生观,为他的终身学习和发展打下了良好的基础。
”创设有效的情景,提高学生学习英语的兴趣,也是单词教学的一个重要环节。
只有适当的情境中使用单词,才能加深同学的理解。
也使得他有身临其境的感觉。
进而可以培养学生的语感。
好多单词在不同的语境中表达着不同的意义。
由于此意的多样性,一定要为学生创设适当的情景。
同学既掌握听、说、读、写技能。
也能体验到学以致用的感觉。
大大地提高了他的学习兴趣。
四、根据语境记英语单词英语中的好多单词在不同的语境中表达着不同的意思,有时候词性也不一样。
如果简单的在单词表中进行了机械式的记忆,那是远远不够的。
应该把它从单词表中搬到文章里边,再根据上下文的意思来揣摩它的用法。
例如I got a present on my birthday .在生日的一天收到了一份礼物。
Li Ming is presenting a report about the clothes around the word. 正在做一篇关于世界服装的报告。
两个句子中的present不仅意思不一样,发音也不一样。
像这种情况,只有将单词放在句子里面才能更好的全面的理解。
五、头脑风暴记忆法头脑风暴记忆法其实指的是限时记忆,也就是短时间内完成某几个单词的记忆。
在初一学生刚入学不久,它对周围的一切事情都感到好奇,尤其是新的老师和新的教学方法。
所以在单词教学中力求标新立异。
发现讲解完单词后,给他限定一定的时间记忆。
然后做一个dictation,看谁写的既对又快。
叫四位自愿到黑板上写,其他的同学在下面写,谁先写完先举手,检查再核对,每次评选出五位记忆大王,这样同学就有一定的竞争意识。
都迫不及待的抓紧记忆,其结果往往不错。
总之,单词记忆一定要讲究方法,讲究规律。
不能盲目行动。
掌握了这五种方法。
创设情景,巧记英语单词;轻松学英语。
lda 数据量大怎么办 python
jieba"结巴"中文分词:做最好的Python中文分词组件"Jieba"(Chinesefor"tostutter")Chinesetextsegmentation:builttobethebestPythonChinesewordsegmentationmodule.ScrolldownforEnglishdocumentation.Feature支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
支持繁体分词支持自定义词典在线演示/huaban/jieba-analysisAlgorithm基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了动态规划查找最大概率路径,找出基于词频的最大切分组合对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法功能1):分词jieba.cut方法接受两个输入参数:1)第一个参数为需要分词的字符串2)cut_all参数用来控制是否采用全模式jieba.cut_for_search方法接受一个参数:需要分词的字符串,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细注意:待分词的字符串可以是gbk字符串、utf-8字符串或者unicodejieba.cut以及jieba.cut_for_search返回的结构都是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),也可以用list(jieba.cut())转化为list代码示例(分词)#encoding=utf-8importjiebaseg_list=jieba.cut("我来到北京清华大学",cut_all=True)print"FullMode:","/".join(seg_list)#全模式seg_list=jieba.cut("我来到北京清华大学",cut_all=False)print"DefaultMode:","/".join(seg_list)#精确模式seg_list=jieba.cut("他来到了网易杭研大厦")#默认是精确模式print",".join(seg_list)seg_list=jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")#搜索引擎模式print",".join(seg_list)Output:【全模式】:我/来到/北京/清华/清华大学/华大/大学【精确模式】:我/来到/北京/清华大学【新词识别】:他,来到,了,网易,杭研,大厦(此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)【搜索引擎模式】:小明,硕士,毕业,于,中国,科学,学院,科学院,中国科学院,计算,计算所,后,在,日本,京都,大学,日本京都大学,深造功能2):添加自定义词典开发者可以指定自己自定义的词典,以便包含jieba词库里没有的词。
虽然jieba有新词识别能力,但是自行添加新词可以保证更高的正确率用法:jieba.load_userdict(file_name)#file_name为自定义词典的路径词典格式和dict.txt一样,一个词占一行;每一行分三部分,一部分为词语,另一部分为词频,最后为词性(可省略),用空格隔开范例:之前:李小福/是/创新//主任/也/是/云/计算/方面/的/专家/加载自定义词库后: 李小福/是/创新/主任/也/是/云计算/方面/的/专家/自定义词典:/fxsjy/jieba/blob/master/test/test_userdict.py"通过用户自定义词典来增强歧义纠错能力"---/fxsjy/jieba/blob/master/test/extract_tags.py功能4):词性标注标注句子分词后每个词的词性,采用和ictclas兼容的标记法用法示例>>>importjieba.possegaspseg>>>words=pseg.cut("我爱北京天安门")>>>forwinwords:printw.word,w.flag我r爱v北京ns天安门ns功能5):并行分词原理:将目标文本按行分隔后,把各行文本分配到多个python进程并行分词,然后归并结果,从而获得分词速度的可观提升基于python自带的multiprocessing模块,目前暂不支持windows用法:jieba.enable_parallel(4)#开启并行分词模式,参数为并行进程数jieba.disable_parallel()#关闭并行分词模式例子:/fxsjy/jieba/blob/master/test/parallel/test_file.py实验结果:在4核3.4GHzLinux机器上,对金庸全集进行精确分词,获得了1MB/s的速度,是单进程版的3.3倍。
功能6):Tokenize:返回词语在原文的起始位置注意,输入参数只接受unicode默认模式result=jieba.tokenize(u'永和服装饰品有限公司')fortkinresult:print"word%s\t\tstart:%d\t\tend:%d"%(tk[0],tk[1],tk[2])word永和start:0end:2word服装start:2end:4word饰品start:4end:6word有限公司start:6end:10搜索模式result=jieba.tokenize(u'永和服装饰品有限公司',mode='search')fortkinresult:print"word%s\t\tstart:%d\t\tend:%d"%(tk[0],tk[1],tk[2])word永和start:0end:2word服装start:2end:4word饰品start:4end:6word有限start:6end:8word公司start:8end:10word有限公司start:6end:10功能7):ChineseAnalyzerforWhoosh搜索引擎引用:fromjieba.analyseimportChineseAnalyzer用法示例:/fxsjy/jieba/raw/master/extra_dict/dict.txt.big下载你所需要的词典,然后覆盖jieba/dict.txt即可或者用jieba.set_dictionary('data/dict.txt.big')模块初始化机制的改变:lazyload(从0.28版本开始)jieba采用延迟加载,"importjieba"不会立即触发词典的加载,一旦有必要才开始加载词典构建trie。
如果你想手工初始jieba,也可以手动初始化。
importjiebajieba.initialize()#手动初始化(可选)在0.28之前的版本是不能指定主词...
转载请注明出处51数据库 » word中文词频分析
迎春花已开