1. word分词器分的词怎么都是一个词
我们知道,Word中的words对象是Word可以识别的词语,对于汉语词语来说,有的词语和我们的习惯并不完全相符。简单的说就是有的词语在Word
中被认为是一个词语,如 阿波罗 ,有的词语被识别为多个词语,如 一字之差
这样的差别就是Word在分词方面的bug。下面就谈谈如何实现对Word汉语分词自定义。
首先特别要感谢Excelhome论坛sylun兄。之前我还一直固执地认为Word只支持导入英文词典,对于中文词语不支持自定义,是这位哥哥告诉我,可以通过导入微软拼音输入法自造词实现自定义分词效果。我的工作其实就是想办法把这个效果的实现更简单一些:不再必须安装庞大的微软拼音输入法,且一经导入制作的自造词在用户间可以简单实现通用。
效果如下:
1、首先不做任何操作,打开测试文档,点击“统计每段词语数”看看结果。不保存关闭文档。
2、运行Word自造词工具.exe,点击修改按钮。
3、再次打开测试文档,点击“统计每段词语数”看看结果。两次结果是否相同。
原来每一段都被自定义成了一个词语。(回车符除外)
2. java中文分词组件word怎么使用
参考如下1、快速体验运行项目根目录下的脚本demo-word.bat可以快速体验分词效果用法: command [text] [input] [output]命令command的可选值为:demo、text、filedemotext 杨尚川是APDPlat应用级产品开发平台的作者file d:/text.txt d:/word.txtexit2、对文本进行分词移除停用词:List words = WordSegmenter.seg("杨尚川是APDPlat应用级产品开发平台的作者");保留停用词:List words = WordSegmenter.segWithStopWords("杨尚川是APDPlat应用级产品开发平台的作者"); System.out.println(words);输出:移除停用词:[杨尚川, apdplat, 应用级, 产品, 开发平台, 作者]保留停用词:[杨尚川, 是, apdplat, 应用级, 产品, 开发平台, 的, 作者]3、对文件进行分词String input = "d:/text.txt";String output = "d:/word.txt";移除停用词:WordSegmenter.seg(new File(input), new File(output));保留停用词:WordSegmenter.segWithStopWords(new File(input), new File(output));4、自定义配置文件默认配置文件为类路径下的word.conf,打包在word-x.x.jar中自定义配置文件为类路径下的word.local.conf,需要用户自己提供如果自定义配置和默认配置相同,自定义配置会覆盖默认配置配置文件编码为UTF-85、自定义用户词库自定义用户词库为一个或多个文件夹或文件,可以使用绝对路径或相对路径用户词库由多个词典文件组成,文件编码为UTF-8词典文件的格式为文本文件,一行代表一个词可以通过系统属性或配置文件的方式来指定路径,多个路径之间用逗号分隔开类路径下的词典文件,需要在相对路径前加入前缀classpath:指定方式有三种: 指定方式一,编程指定(高优先级): WordConfTools.set("dic.path", "classpath:dic.txt,d:/custom_dic"); DictionaryFactory.reload();//更改词典路径之后,重新加载词典 指定方式二,Java虚拟机启动参数(中优先级): java -Ddic.path=classpath:dic.txt,d:/custom_dic 指定方式三,配置文件指定(低优先级): 使用类路径下的文件word.local.conf来指定配置信息 dic.path=classpath:dic.txt,d:/custom_dic如未指定,则默认使用类路径下的dic.txt词典文件6、自定义停用词词库使用方式和自定义用户词库类似,配置项为:stopwords.path=classpath:stopwords.txt,d:/custom_stopwords_dic7、自动检测词库变化可以自动检测自定义用户词库和自定义停用词词库的变化包含类路径下的文件和文件夹、非类路径下的绝对路径和相对路径如:classpath:dic.txt,classpath:custom_dic_dir,d:/dic_more.txt,d:/DIC_DIR,D:/DIC2_DIR,my_dic_dir,my_dic_file.txtclasspath:stopwords.txt,classpath:custom_stopwords_dic_dir,d:/stopwords_more.txt,d:/STOPWORDS_DIR,d:/STOPWORDS2_DIR,stopwords_dir,remove.txt8、显式指定分词算法对文本进行分词时,可显式指定特定的分词算法,如:WordSegmenter.seg("APDPlat应用级产品开发平台", SegmentationAlgorithm.BidirectionalMaximumMatching);SegmentationAlgorithm的可选类型为: 正向最大匹配算法:MaximumMatching逆向最大匹配算法:ReverseMaximumMatching正向最小匹配算法:MinimumMatching逆向最小匹配算法:ReverseMinimumMatching双向最大匹配算法:BidirectionalMaximumMatching双向最小匹配算法:BidirectionalMinimumMatching双向最大最小匹配算法:BidirectionalMaximumMinimumMatching全切分算法:FullSegmentation最少分词算法:MinimalWordCount最大Ngram分值算法:MaxNgramScore9、分词效果评估运行项目根目录下的脚本evaluation.bat可以对分词效果进行评估评估采用的测试文本有253 3709行,共2837 4490个字符评估结果位于target/evaluation目录下:corpus-text.txt为分好词的人工标注文本,词之间以空格分隔test-text.txt为测试文本,是把corpus-text.txt以标点符号分隔为多行的结果standard-text.txt为测试文本对应的人工标注文本,作为分词是否正确的标准result-text-***.txt,***为各种分词算法名称,这是word分词结果perfect-result-***.txt,***为各种分词算法名称,这是分词结果和人工标注标准完全一致的文本wrong-result-***.txt,***为各种分词算法名称,这是分词结果和人工标注标准不一致的文本。
3. Word公式编辑器如何使用
你一定知道在Word中有个“公式编辑器”应用程序,但你可能不清楚它其实不是微软公司开发的,它是Design Science公司的Mathtype“公式编辑器”特别版,是为Microsoft应用程序而定制的。
★ 公式编辑器的安装 “公式编辑器”不是Office默认安装的组件,如果要使用它,重新安装Office至如图1所示步骤时,在“Office工具”中选择“公式编辑器”,从选项中选择“从本机运行”,继续进行安装就可以将“公式编辑器”安装成功了。 ★ 启动公式编辑器 需要编辑公式时,单击“插入→对象”命令,打开“对象”对话框(如图2所示),在“对象类型”中找到“Microsoft公式3.0”,选定后,单击[确定]按钮,在文档中就插入了公式编辑窗口,此时文字与公式处于混排状态,如果你勾选了“显示为图标”前的复选框,在文档中插入的是“Microsoft公式3.0”的图标。
双击图标,可打开一个独立的“公式编辑器”程序窗口,此程序窗口与Word程序窗口是相互独立的,在编辑公式过程中若想编辑文字,直接切换到Word程序窗口进行编辑即可,不需关闭“公式编辑器”程序窗口,给编辑文档带来了很多方便。 在“公式编辑器”程序窗口中编辑完公式后,单击“文件→更新”命令,或者按F3键,文档中的公式即被更新,若直接关闭了“公式编辑器”程序窗口,也可完成更新操作。
小技巧:每次插入完一个公式,都要重新启动“公式编辑器”(是不是觉得有点麻烦?),想不想在工具栏上给“公式编辑器”安个家——建立“公式编辑器”按钮呢? 跟我来吧:单击菜单“工具→自定义”命令,在“自定义”对话框中的“命令”选项卡中选中“类别”下的“插入”项,然后在“命令”下找到“公式编辑器”,按下左键将它拖动到工具栏上放下即可。以后只要单击这个按钮就可以启动“公式编辑器”了,方便多了吧! 用公式编辑器创建公式 ★ 工具栏的组成 创建公式主要是由“公式编辑器”工具栏来完成的,先来认识一下它吧:“公式编辑器”工具栏的组成如图3所示,在工具栏上排列着两行共19个按钮,将鼠标箭头停留在按钮上,会自动显示各按钮的提示信息。
用顶行的按钮可插入150多个数学符号,其中许多符号在标准Symbol字体中没有,如果需要输入特殊符号,尽管在这里查找好了。 底行的按钮用于插入模板或结构,它们包括分式、根式、求和、积分、乘积和矩阵等符号,以及各种围栏。
许多模板包含插槽(键入文字和插入符号的空间)。工具板上的模板大约有120个(分组显示),我们可以通过嵌套模板(把模板插入另一个模板的插槽中)来创建复杂的多级化公式,但嵌套的模板不能超过10级。
若要在公式中插入符号或模板,可单击工具栏上的相应按钮,然后在显示的工具板中单击特定符号模板。 ★ 公式的创建 在公式编辑器中大家就可以建立需要的公式了,比如要建立如图4所示的公式: 先键入“S”,然后在“上标和下标”模板中,选取带下标的选项(如图5),这时S的右侧就出现下标框,输入“ij”:输入“=”: 在工具栏中单击“求和模板”,在打开的选项中选择上下带虚框的求和符号,然后将光标置于相应的位置框上,分别输入“n”、“k=1”: 单击工具栏上的“希腊字母”按钮,在α上单击一下,然后再按前面的方法输入下标“ik”,接下来要输入乘号,单击“数字符号”按钮,从中选取乘号。
同样,再插入β及其下标,公式就输完了。 单击公式编辑器菜单“文件”,选“退出并返回”,退出公式编辑环境,返回到PowerPoint中。
这时候公式对象就可以像图形一样进行各种编辑操作。如果想改公式,只要双击公式结果,就又进入公式编辑器,可以对公式进行编辑修改操作。
用公式编辑器创建公式 ★ 工具栏的组成 创建公式主要是由“公式编辑器”工具栏来完成的,先来认识一下它吧:“公式编辑器”工具栏的组成如图3所示,在工具栏上排列着两行共19个按钮,将鼠标箭头停留在按钮上,会自动显示各按钮的提示信息。 用顶行的按钮可插入150多个数学符号,其中许多符号在标准Symbol字体中没有,如果需要输入特殊符号,尽管在这里查找好了。
底行的按钮用于插入模板或结构,它们包括分式、根式、求和、积分、乘积和矩阵等符号,以及各种围栏。许多模板包含插槽(键入文字和插入符号的空间)。
工具板上的模板大约有120个(分组显示),我们可以通过嵌套模板(把模板插入另一个模板的插槽中)来创建复杂的多级化公式,但嵌套的模板不能超过10级。 若要在公式中插入符号或模板,可单击工具栏上的相应按钮,然后在显示的工具板中单击特定符号模板。
★ 公式的创建 在公式编辑器中大家就可以建立需要的公式了 先键入“S”,然后在“上标和下标”模板中,选取带下标的选项,这时S的右侧就出现下标框,输入“ij”:输入“=”: 在工具栏中单击“求和模板”,在打开的选项中选择上下带虚框的求和符号,然后将光标置于相应的位置框上,分别输入“n”、“k=1”: 单击工具栏上的“希腊字母”按钮,在α上单击一下,然后再按前面的方法输入下标“ik”,接下来要输入乘号,单击“数字符号”按钮,从中选取乘号。同样,再插入β及其。
4. Word公式编辑器使用技巧有哪些
①公式编辑器的启动与退出
工具/自定义/键盘/插入/InsertEquation,把指针放在“请按新快捷键”下的空行内,按“Ctrl+Enter”(当然也可以用别的快捷键,不过这个最易操作),再顺次点击“指定”、“关闭”、“关闭”。以后在WORD中直接用按“Ctrl+Enter”即可启动公式编辑器,退出公式编辑器时,按Esc即可。
②在Word公式编辑器编辑公式时添加空格
在Word公式编辑器编辑公式时无法直接通过按空格键来添加空格,此时可同时按下“Ctrl+Shift+空格键”即可加入空格,也可选择公式编辑器工具栏中形如“a b”的符号加入不同宽度的空格。
③采用复制的方法
对于相似相同的公式则可采取“复制”的方法,避免重复工作。这样只要改动一点点不同之处就可以收到事半功倍的效果。方法有两种:一种是在Word中直接复制整个公式,另一种是在“公式编辑器”复制公式的一部分,下一次启动“公式编辑器”时再粘贴到其他公式中使用。
④公式编辑器中最常用的几个快捷键
Ctrl+H:上标; Crtl+L:下标 ;Ctrl+J:上下标; Crtl+R:根号;Ctrl+F:分号。
⑤在公式编辑器中通用的几个快捷键
Ctrl+A:全选;Ctrl+X:剪切;Ctrl+C:复制;Ctrl+V:粘贴;Ctrl+B:加黑;Ctrl+S:保存;Shift+方向键:局部选择。
⑥有时上下标为汉字,则显得很小,看不清楚,可以对设置进行如下改变,操作为“尺寸/定义”,在出现的对话框中将上下标设为8磅。
⑦如果word正文选用五号字,则将公式编辑器中“尺寸/定义”对话框中的“标准”定为11磅最为适宜。
⑧在输入法的全角状态下,可以输入空格,半角状态下则不可以。
⑨在“样式/定义”中可以对文字进行加黑或倾斜等设置。
⑩在公式编辑中,一些特殊符号无法直接输入(如①、★、≌、∽、⊙等),可先在word正文中插入某个特殊符号,再通过“复制、粘贴”的方法将它移植到公式。
5. 电脑打字哪个键是“分词 '”
1、在电脑键盘上有一个写有Enter字样并有一弯箭头的按键,被叫做回车键,回车键的来历还得从机械英文打字机说起在机械英文打字机上,有一个部件叫字车每打一个单词就前进一格当打满一行字符后,打字者就得推动字车到起始位置这时打字机会有两个动作响应,一是字车被归位,二是滚筒上卷一行,以便开始输入下一行,这个推动字车的动作叫回车,后来在电动英文打字机上人们增加了一个直接起回车作用的键,这个新增的键就被称为回车键。
2、用Enter键快速显示目标属性当你在桌面上选定一个图标或者在资源管理器中选定一个程序或文档,如果要快速查看属性用鼠标右键调用快捷菜单中的属性命令一个简单的AIt+Enter组台就可解决问题。 2、Enter键实现Word排版,控制Word排版会用到换行,分页,分词不同指令来分割不同属性的版面内容通过Enter键与不同控制键的配合就可以轻松插入这些控制符号使用Shlft,令Enter可在光标处插入一个换行符便用Ctrl+Enter可在光标处插入一个分页符使用Ctrl+shift+Enter可在光标处插入一个分节符。
6. Shift键在Word中的使用技巧有哪些
Shift是我们平时再熟悉不过的一个键了,在资源管理器或我的电脑中,按住Shift可以强制执行文件的移动操作,配合鼠标还可以进行批量文件的快速选择,可谓是方便多多了。
但您知道Shift键在Word中还有什么作用吗? 今天,笔者就列举几个,供大家一起分享,希望能对大家平时的操作有所帮助! 1。 Shift + Delete键 = 剪切 当我们选中简历表格里的一段文字后,按住Shift并按动Delete键就相当于执行了剪切命令,所选的文字会被直接复制到剪贴板中,非常方便; 2。
Shift + Insert键 = 粘贴 这条命令正好与上一个剪切命令相对应,按住Shift并按动Insert键时就相当于执行了粘贴命令,保存在剪贴板里的最新内容会被直接复制到当前光标处,与上面的剪切命令配合,可以大大加快文章的编辑效率; 3。 Shift + F10键 = 鼠标右键 按住Shift并按动F10功能键就相当于在当前位置执行了鼠标右键命令,在鼠标不灵时可以不妨试试它; 4。
Shift + “保存”命令 = 全部保存 在按住Shift键的情况下点击“文件”菜单,您会发现原来的“保存”命令变成了“全部保存”,而它的作用也就是快速保存当前所有打开的Word简历表格文件。 5。
Shift + “关闭”命令 = 全部关闭 有了“全部保存”,自然还要有“全部关闭”,操作方法仍然同上,按住Shift键后再点击“文件”菜单,原来的“关闭”也就会变成“全部关闭”了; 6。 Shift + 鼠标 = 准确选择大块文字 有些朋友在工作时可能经常要选择大段的文字,通常的方法就是直接使用鼠标拖动选取,但这种方法一般只对小段文字方便,如果想选取简历表格中的一些跨页的大段文字的话,经常会出现鼠标走过头的情况,尤其是新手,很难把握鼠标行进的速度。
其实,使用Shift键就能够轻松地解决这个难题。 具体操作时,只要先用鼠标左键在要选择文字的开头点击一下,然后再按住Shift键,单击要选取文字的最末尾,这时,两次单击之间的所有文字就会马上被选中,不仅方便,而且绝对不会出错。