Java可以使用这个开源框架,对word进行读取合并等操作,Apache POI是一个开源的利用Java读写Excel、WORD等微软OLE2组件文档的项目。最新的3.5版本有很多改进,加入了对采用OOXML格式的Office 2007支持,如xlsx、docx、pptx文档。 示例如下:
importorg.apache.poi.POITextExtractor;importorg.apache.poi.hwpf.extractor.WordExtractor;
//得到.doc文件提取器
org.apache.poi.hwpf.extractor.WordExtractordoc=newWordExtractor(newFileInputStream(filePath));
//提取.doc正文文本
Stringtext=doc.getText();
//提取.doc批注
String[]comments=doc.getCommentsText();
2007
importorg.apache.poi.POITextExtractor;
importorg.apache.poi.xwpf.extractor.XWPFWordExtractor;
importorg.apache.poi.xwpf.usermodel.XWPFComment;
importorg.apache.poi.xwpf.usermodel.XWPFDocument;
//得到.docx文件提取器
org.apache.poi.xwpf.extractor.XWPFWordExtractordocx=newXWPFWordExtractor(POIXMLDocument.openPackage(filePath));
//提取.docx正文文本
Stringtext=docx.getText();
//提取.docx批注
org.apache.poi.xwpf.usermodel.XWPFComment[]comments=docx.getDocument()).getComments();
for(XWPFCommentcomment:comments){
comment.getId();//提取批注Id
comment.getAuthor();//提取批注修改人
comment.getText();//提取批注内容
}
java合并多个word应该怎么做啊,给个思路,谢
Java可以使用这个开源框架,对word进行读取合并等操作,Apache POI是一个开源的利用Java读写Excel、WORD等微软OLE2组件文档的项目。最新的3.5版本有很多改进,加入了对采用OOXML格式的Office 2007支持,如xlsx、docx、pptx文档。 示例如下:
import org.apache.poi.POITextExtractor;
import org.apache.poi.hwpf.extractor.WordExtractor;
//得到.doc文件提取器
org.apache.poi.hwpf.extractor.WordExtractor doc = new WordExtractor(new FileInputStream(filePath));
//提取.doc正文文本
String text = doc.getText();
//提取.doc批注
String[] comments = doc. getCommentsText();
2007
import org.apache.poi.POITextExtractor;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFComment;
import org.apache.poi.xwpf.usermodel.XWPFDocument;
//得到.docx文件提取器
org.apache.poi.xwpf.extractor.XWPFWordExtractor docx = new XWPFWordExtractor(POIXMLDocument.openPackage(filePath));
//提取.docx正文文本
String text = docx.getText();
//提取.docx批注
org.apache.poi.xwpf.usermodel.XWPFComment[] comments = docx.getDocument()).getComments();
for(XWPFComment comment:comments){
comment.getId();//提取批注Id
comment.getAuthor();//提取批注修改人
comment.getText();//提取批注内容
}
java poi导出word 可以设置格式吗
读取word 2003及word 2007需要的jar包
读取 2003 版本(.doc)的word文件相对来说比较简单,只需要 poi-3.5-beta6-.jar 和 poi-scratchpad-3.5-beta6-.jar 两个 jar 包即可, 而 2007 版本(.docx)就麻烦多,我说的这个麻烦不是我们写代码的时候麻烦,是要导入的 jar 包比较的多,有如下 7 个之多:
1. openxml4j-bin-beta.jar
2. poi-3.5-beta6-.jar
3. poi-ooxml-3.5-beta6-.jar
4 .dom4j-1.6.1.jar
5. geronimo-stax-api_1.0_spec-1.0.jar
6. ooxml-schemas-1.0.jar
7. xmlbeans-2.3.0.jar
其中 4-7 是 poi-ooxml-3.5-beta6-.jar 所依赖的 jar 包(在 poi-bin-3.5-beta6-.tar.gz 中的 ooxml-lib 目录下可以找到)。
2.换行符号
硬换行:文件中换行,如果是键盘中使用了"enter"的换行。
软换行:文件中一行的字符数容量有限,当字符数量超过一定值时,会自动切到下行显示。
对程序来说,硬换行才是可以识别的、确定的换行,软换行与字体大小、缩进有关。
3.读取的注意事项
值得注意的是: POI 在读取不会读取 word 文件中的图片信息; 还有就是对于 2007 版的 word(.docx), 如果 word 文件中有表格,所有表格中的数据都会在读取出来的字符串的最后。
4.读取word文本内容代码
1 import java.io.File;
2 import java.io.FileInputStream;
3 import java.io.InputStream;
4
5 import org.apache.poi.POIXMLDocument;
6 import org.apache.poi.POIXMLTextExtractor;
7 import org.apache.poi.hwpf.extractor.WordExtractor;
8 import org.apache.poi.openxml4j.opc.OPCPackage;
9 import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
10
11 public class Test {
12 public static void main(String[] args) {
13 try {
14 InputStream is = new FileInputStream(new File("2003.doc"));
15 WordExtractor ex = new WordExtractor(is);
16 String text2003 = ex.getText();
17 System.out.println(text2003);
18
19 OPCPackage opcPackage = POIXMLDocument.openPackage("2007.docx");
20 POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);
21 String text2007 = extractor.getText();
22 System.out.println(text2007);
23
24 } catch (Exception e) {
25 e.printStackTrace();
26 }
27 }
28 }
office中的word excel ppt的图标显示为空白图标
基本上上是WPS惹得祸。注册表中的默认图标没有被设置到Office。而因为原本安装有2007(或兼容包),由于2010,2013都是使用的同一种文件格式(OOXML),所以安装了2010或2013 ,在新建时会看到新建2007的字样。
楼主的问题需要通过修改注册表来解决
我没有装过office2007,刚买的电脑,一开始装的是wps,后来把wps卸载再安装office2013发现word excel ppt图标还是空白图标,设置为默认的打开方式也没有用
遇到过很多类似的情况了,唯一的解决办法就是把注册表恢复到正常的状态。
加腾讯号码谐音【一丝霸气三思柳闪闪舞】帮你远程处理
wps office英文版怎么转中文版
WIN键+R调出运行,在运行弹框中输入“regedit”进入注册表。
到这个注册位置:HKEY_CURRENT_USER\Software\kingsoft\Office\languages
右键修改languages
参数说明:
中文,zh_CN
英文,en_US
有在用Office2016的吗?怎么样?
我现在用的是Office2016家庭和学生版,感觉还挺好的。因为这个版本里面有Word、Excel、PowerPoint这几个我经常用的软件,所以当初买的时候也是考虑到这点才买了这个版本。感觉Office2016家庭和学生版对于我这种正常上班族来说已经够用了,一次性付款748元但是可以无期限使用也很不错。
如何将text格式转换成word格式
1、打开text格式的文档;
2、选择左上角的“文件”,点击“另存为”;
3、在弹出的另存为菜单保存类型选择Rich Text Format(RTF);
4、“保存”关闭即可,这样再打开该文档就是以word文档打开。
转载请注明出处51数据库 » 基于ooxml的word 怎么用java合并多个word