1.java word中提取关键字
给个思路吧。
读取word用doc4j,然后就是读成字符串进行处理了。
提取关键字首先是中文分词技术,就是把一段话划分成多个组成的词语,然后统计词语的出现次数,这个是主要依据。这个是有实现的jar包的,可以去baidu搜,搜java 中文分词就行。
分词之后,记录词语出现位置,这个是辅助的依据,记录词语一句话中的位置,越靠前越像关键字,权重越高。
甚至可能需要建立一个权重体系,次数设置一个权重,整体位置设置一个权重,不同位置权重也不同。不了解权重可以理解成系数(百分比的,然后计算那个词是关键词)。
同时需要注意,可能需要排除一些常用词,哪些次需要排除,这个需要根据程序反复运行,读取不同word文章的结果来定。
不明白的话在问吧。
2.如何从WORD中截取几段文字并存入另一个WORD文档
以下是今天小的和几个同学一起研究的结果,不过问题还没有解决,您可以简单测试一下如下代码,剩下的就交给您自己完成吧,累啊T T '在窗体中添加一个命令按钮: Private Sub Command1_Click() Dim MyWord As Object '创建宏对象 Set MyWord = CreateObject("Word。
Application") With MyWord '创建一个Word文档 。Documents。
Add。SaveAs FileName:=App。
Path & "\test。doc" '返回这个文档中的第一个单词 StrText = 。
ActiveDocument。Words(1)。
Text '因为这个新建的Word文档没有写入任何内容,因此StrText的值为"" '保存文档 。ActiveDocument。
SaveAs FileName:=App。Path & "\test。
doc" 。Documents(App。
Path & "\test。doc")。
Close '关闭文档 End With Set MyWord = Nothing '返回变量StrText MsgBox StrText End Sub 这段代码会在您的当前目录下生成一个标准Word文档,文件名为"test。 doc",最后的对话框会返回文档中第一个单词""(因为没有写入内容。)
以下代码用于读取Word文档中的第一个单词,直接复制即可: Private Sub Command1_Click() Dim MyWord As Object Set MyWord = CreateObject("Word。 Application") '创建宏对象 With MyWord 。
Documents。Open FileName:="YourWordName" '打开文档,这里是您要读取的文档的名字,您必须自行修改 StrText = 。
ActiveDocument。 Words(1)。
Text '返回这个文档中的第一个单词 。Documents("YourWordName")。
Close '关闭文档,这里的文件名必须和打开的文件名一致,请自行修改 End With Set MyWord = Nothing MsgBox StrText '返回读取到的文档内容 End Sub 这此代码是一定要用上的,绝对会对你有帮助。 看到如上代码,您应该已经知道这个问题的难度了。
3.如何用JAVA截取一段文字的前20个作为返回结果
String类直接有这个方法:这是个简单的例子public class SubString { public static String subString(String str){ if(str.length() < 20){//="" 长度小于20的时候抛出字符串下标越界异常="" throw="" new="" stringindexoutofboundsexception(20);="" }else="" {//="" 否则返回需要值="" return="" str.substring(0,="" 20);="" }="" }="" public="" static="" void="" main(string[]="" args)="" {="" system.out.println(substring.substring("dfd"));system.out.println(substring.substring("dfdggggggggggggggggggjjjjjjjjjjj"));="">
4.怎样截取图片中的文字
按下面步骤做: 一、将图片的格式转换成TIF或TIFF(用WIN自带的“画图”就可) 二、如果系统没有安装OFFICE2003,就赶快安装。
三、用OFFICE附带的工具Microsoft Office Document Imaging将转换后的图片打开。 四、在它的菜单“工具”里提供了两个命令,按下列顺序执行:1、“识别”2、发送到WORD。
五、打开WORD就可见到你要编辑的文本文件了。 提示:一、图片要比较“干净”,尽量去掉“背景”和不需要的色块。
二、尽量没有表格。 如果是插入到了WORD中的图片,则更简单 具体做法是: 文件——打印——选择打印机Microsoft Office Document Image Writer(Microsoft Office的选择安装)——确定后会自动转到识别系统,识别就行了。
5.java中如何截取字符串中的指定一部分
具体方法如下: String useName= F:\workspace\ssh_photo\WebContent\uploadFile\1444783552338pic.jpg ; int begin=useName.indexOf(“.”); int last=useName.length(); System.out.println(useName.substring(begin,last)); 方法介绍: public String substring(int beginIndex, int endIndex); 第一个int为开始的索引,对应String数字中的开始位置。
第二个是截止的索引位置,对应String中的结束位置。.。
6.Java编写一个程序读取文本文档,提取其中英文单词,将大写字母改
import java.io.File;import java.io.FileReader;import java.util.ArrayList;import java.util.List;import java.util.Scanner;/** * 2016/11/22 09:59 * * @author 3306 TODO 怀疑人生 */public class MyFileReader { public static void main(String[] args) { String path = "d://test.txt";//文件路径 List
String类直接有这个方法:这是个简单的例子 public class SubString { public static String subString(String str){ if(str.length() < 20){// 长度小于20的时候抛出字符串下标越界异常 throw new StringIndexOutOfBoundsException(20); }else {// 否则返回需要值 return str.substring(0, 20); } } public static void main(String[] args) { System.out.println(SubString.subString("dfd")); System.out.println(SubString.subString("dfdggggggggggggggggggjjjjjjjjjjj")); } } 转载请注明出处51数据库 » javaword截取汉字7.如何用JAVA截取一段文字的前20个作为返回结果