poi可以按paragraph分割word吗
自己在做项目过程中用到了解析分割word2003和2007,2010等文件内容,以下是代码:下面是部分代码,如果想要全部代码可以发我邮箱,yongqian.liu@peraglobal.com,接口类 :PoiExtractContent.javapackage com.peraglobal.extract.poi;import java.util.Map;/*** 使用 POI 解析 WORD 文件的内容信息* @author yongqian.liu* 2015-2-9*/public interface PoiExtractContent {/*** 根据文件路径获得 Document 对象* @param docPath 路径* @return Document*/public T getDocument(String docPath);/*** 解析 word 文档的标题* @param doc Document 对象* @return word 文档中标题*/public String getTilte(T doc);/*** 获取 word 文档里所有文字内容(不包括图片、表格等格式的内容)* @param doc Document 对象* @return word 文档中文字部分全部内容*/public String getContent(T doc);/*** 获取 word 文档里所有文字内容(不包括图片、表格等格式的内容)* @param docPath doc 对象路径* @return word 文档中文字部分全部内容*/public String getContent(String docPath);/*** 获取 word 文档里面所有图片并另存到指定目录下* @param doc Document 对象* @param picPath 保存图片路径* @param suffix 后缀名*/public void getPictures(T doc, String picPath, String suffix);/*** 获取word 文档里面所有表格* @param doc Document 对象*/public void getTables(T doc);/*** 获取word 文档中最大的字体* @param doc Document 对象* @return 最大字体*/public int getMaxFontSize(T doc);/*** 获取 word 文档的创建信息* @param docPath doc路径* @return 创建文档的信息*/public Map getInfo(String docPath);}
java解析word文档用什么技术
java读取word文档时,虽然网上介绍了很多插件poi、java2Word、jacob、itext等等,poi无法读取格式(新的API估计行好像还在处于研发阶段,不太稳定,做项目不太敢用);java2Word、jacob容易报错找不到注册,比较诡异,我曾经在不同的机器上试过,操作方法完全一致,有的机器不报错,有的报错,去他们论坛找高人解决也说不出原因,项目部署用它有点玄;itxt好像写很方便但是我查了好久资料没有见到过关于读的好办法。
经过一番选择还是折中点采用rtf最好,毕竟rtf是开源格式,不需要借助任何插件,只需基本IO操作外加编码转换即可。
rtf格式文件表面看来和doc没啥区别,都可以用word打开,各种格式都可以设定。
安卓开发 如何读取word文档显示出来....
展开全部 Apache POI 可以满足你的需求,我觉估计也是唯一靠谱的选择了。
是一个开源的解析Office文件的Java库。
我以前用它来给单位的内容管理客户端做过Word文档展示。
总的来说,POI库就是把各种Office文件解析成一种文档树。
当时我是修改了一下POI的一个例子程序把word转成html文件来显示的。
有很多支持的包,我用的是poi包,注意版本,要和excel版本相符。
然后网上有例子,直接可以拿到数据,怎么显示出来就简单了。
...
如何使用java把多个word文档合并?
1. 实际上还真就得一个一个set进去2. 我现在做的程序就有这部分机能,思路就是excel→sheet→row3. 然后遍历所有row,取出所有的cell放到一个存储用结构体中。
4. 无论如何,解析的过程都需要自己来写的。
5. 你的想法我明白,其实就是想要一个java与poi的databinding,定义好的数据模块可以自动和excel的对应列进行匹配。
但是这个东西确实就没有啊,人家只封装了读取excel内容,没有提供这样的模块,只有自己写啊。
即使是60个列,事实上绑定的逻辑也就只用写一次,而且大部分的内容只要复制粘贴就好了。
在java程序中,将一个二进制的word文件读了出来并生成word文件。
但...
展开全部 Java可以使用这个开源框架,对word进行读取合并等操作,Apache POI是一个开源的利用Java读写Excel、WORD等微软OLE2组件文档的项目。
最新的3.5版本有很多改进,加入了对采用OOXML格式的Office 2007支持,如xlsx、docx、pptx文档。
示例如下: import org.apache.poi.POITextExtractor; import org.apache.poi.hwpf.extractor.WordExtractor; //得到.doc文件提取器 org.apache.poi.hwpf.extractor.WordExtractor doc = new WordExtractor(new FileInputStream(filePath)); //提取.doc正文文本 String text = doc.getText(); //提取.doc批注 String[] comments = doc. getCommentsText(); 2007 import org.apache.poi.POITextExtractor; import org.apache.poi.xwpf.extractor.XWPFWordExtractor; import org.apache.poi.xwpf.usermodel.XWPFComment; import org.apache.poi.xwpf.usermodel.XWPFDocument; //得到.docx文件提取器 org.apache.poi.xwpf.extractor.XWPFWordExtractor docx = new XWPFWordExtractor(POIXMLDocument.openPackage(filePath)); //提取.docx正文文本 String text = docx.getText(); //提取.docx批注 org.apache.poi.xwpf.usermodel.XWPFComment[] comments = docx.getDocument()).getComments(); for(XWPFComment comment:comments){ comment.getId();//提取批注Id comment.getAuthor();//提取批注修改人 comment.getText();//提取批注内容 }
转载请注明出处51数据库 » poi解析word文本
那晚越女说我?