1.java解析word文档有哪些方法
java读取word文档时,虽然网上介绍了很多插件poi、java2Word、jacob、itext等等,poi无法读取格式(新的API估计行好像还在处于研发阶段,不太稳定,做项目不太敢用);java2Word、jacob容易报错找不到注册,比较诡异,我曾经在不同的机器上试过,操作方法完全一致,有的机器不报错,有的报错,去他们论坛找高人解决也说不出原因,项目部署用它有点玄;itxt好像写很方便但是我查了好久资料没有见到过关于读的好办法。
经过一番选择还是折中点采用rtf最好,毕竟rtf是开源格式,不需要借助任何插件,只需基本IO操作外加编码转换即可。rtf格式文件表面看来和doc没啥区别,都可以用word打开,各种格式都可以设定。
----- 实现的功能:读取rtf模板内容(格式和文本内容),替换变化部分,形成新的rtf文档。----- 实现思路:模板中固定部分手动输入,变化的部分用$info$表示,只需替换$info$即可。
1、采用字节的形式读取rtf模板内容2、将可变的内容字符串转为rtf编码3、替换原文中的可变部分,形成新的rtf文档主要程序如下:public String bin2hex(String bin) {char[] digital = "0123456789ABCDEF".toCharArray();StringBuffer sb = new StringBuffer("");byte[] bs = bin.getBytes();int bit;for (int i = 0; i < bs.length;i++)="" {bit="(bs[i]" &="" 0x0f0)="">> 4;sb.append("\\'");sb.append(digital[bit]);bit = bs[i] & 0x0f;sb.append(digital[bit]);}return sb.toString(); }public String readByteRtf(InputStream ins, String path){ String sourcecontent =""; try{ ins = newFileInputStream(path); byte[] b= new byte[1024];if (ins == null) {System.out.println("源模板文件不存在");}int bytesRead = 0;while (true) {bytesRead = ins.read(b, 0, 1024); // return final read bytescountsif(bytesRead == -1) {// end of InputStreamSystem.out.println("读取模板文件结束");break;}sourcecontent += new String(b, 0, bytesRead); // convert to stringusing bytes} }catch(Exception e){ e.printStackTrace(); } return sourcecontent ;}以上为核心代码,剩余部分就是替换,从新组装java中的String.replace(oldstr,newstr);方法可以实现,在这就不贴了。源代码部分详见附件。
运行源代码前提:c盘创建YQ目录,将附件中"模板.rtf"复制到YQ目录之下,运行OpreatorRTF.java文件即可,就会在YQ目录下生成文件名如:21时15分19秒_cheney_记录.rtf的文件。 package com;import java.io.File;import java.io.FileInputStream;import java.io.FileWriter;import java.io.IOException;import java.io.InputStream;import java.io.PrintWriter;import java.text.SimpleDateFormat;import java.util.Date;public class OperatorRTF {public String strToRtf(String content){char[] digital = "0123456789ABCDEF".toCharArray();StringBuffer sb = new StringBuffer("");byte[] bs = content.getBytes();int bit;for (int i = 0; i < bs.length;="" i++)="" {bit="(bs[i]" &="" 0x0f0)="">> 4;sb.append("\\'");sb.append(digital[bit]);bit = bs[i] & 0x0f;sb.append(digital[bit]);}return sb.toString();}public String replaceRTF(String content,String replacecontent,intflag){String rc = strToRtf(replacecontent);String target = "";if(flag==0){target = content.replace("$timetop$",rc);}if(flag==1){target = content.replace("$info$",rc);}if(flag==2){target = content.replace("$idea$",rc);}if(flag==3){target = content.replace("$advice$",rc);}if(flag==4){target = content.replace("$infosend$",rc);}return target;}public String getSavePath() {String path = "C:\\YQ";File fDirecotry = new File(path);if (!fDirecotry.exists()) {fDirecotry.mkdirs();}return path;}public String ToSBC(String input){char[] c =input.toCharArray();for (int i =0; i < c.length;="" i++){if="" (c[i]="=" 32){c[i]="(char)" 12288;continue;}if="" (c[i]="">< 127){c[i]="(char)" (c[i]="" +="" 65248);}}return="" newstring(c);}public="" void="" rgmodel(string="" username,="" string="" content)="" {//="" todo="" auto-generated="" method="" stubdate="" current="new" date();simpledateformat="" sdf="new" java.text.simpledateformat("yyyy-mm-ddhh:mm:ss");string="" targetname="sdf.format(current).substring(11,13)" +="" "时";targetname="" +="sdf.format(current).substring(14,16)" +="" "分";targetname="" +="sdf.format(current).substring(17,19)" +="" "秒";targetname="" +="_" +="" username="" +"_记录.rtf";string="" strpath="getSavePath();String" sourname="strpath+"\\"+"模板.rtf";String" sourcecontent="" ;inputstream="" ins="null;try{ins" =="" new="" fileinputstream(sourname);byte[]="" b="new" byte[1024];if="" (ins="=" null)="" {system.out.println("源模板文件不存在");}int="" bytesread="0;while" (true)="" {bytesread="ins.read(b," 0,="" 1024);="" return="" final="" read="" bytescountsif(bytesread="=" -1)="" {//="" end="" of="" inputstreamsystem.out.println("读取模板文件结束");break;}sourcecontent="" +="">
2.java解析word文档有哪些方法
java读取word文档时,虽然网上介绍了很多插件poi、java2Word、jacob、itext等等,poi无法读取格式(新的API估 计行好像还在处于研发阶段,不太稳定,做项目不太敢用);java2Word、jacob容易报错找不到注册,比较诡异,我曾经在不同的机器上试过,操作 方法完全一致,有的机器不报错,有的报错,去他们论坛找高人解决也说不出原因,项目部署用它有点玄;itxt好像写很方便但是我查了好久资料没有见到过关 于读的好办法。
经过一番选择还是折中点采用rtf最好,毕竟rtf是开源格式,不需要借助任何插件,只需基本IO操作外加编码转换即可。rtf格式文件表 面看来和doc没啥区别,都可以用word打开,各种格式都可以设定。
----- 实现的功能:读取rtf模板内容(格式和文本内容),替换变化部分,形成新的rtf文档。----- 实现思路:模板中固定部分手动输入,变化的部分用$info$表示,只需替换$info$即可。
1、采用字节的形式读取rtf模板内容2、将可变的内容字符串转为rtf编码3、替换原文中的可变部分,形成新的rtf文档 主要程序如下:public String bin2hex(String bin) { char[] digital = "0123456789ABCDEF".toCharArray(); StringBuffer sb = new StringBuffer(""); byte[] bs = bin.getBytes(); int bit; for (int i = 0; i bit = (bs[i] & 0x0f0)>> 4; sb.append("\\'"); sb.append(digital[bit]); bit = bs[i] & 0x0f; sb.append(digital[bit]); } return sb.toString(); } public String readByteRtf(InputStream ins, String path){ String sourcecontent =""; try{ ins = new FileInputStream(path); byte[] b= new byte[1024]; if (ins == null) { System.out.println("源模板文件不存在"); } int bytesRead = 0; while (true) { bytesRead = ins.read(b, 0, 1024); // return final read bytes counts if(bytesRead == -1) {// end of InputStream System.out.println("读取模板文件结束"); break; } sourcecontent += new String(b, 0, bytesRead); // convert to string using bytes } }catch(Exception e){ e.printStackTrace(); } return sourcecontent ; } 以上为核心代码,剩余部分就是替换,从新组装java中的String.replace(oldstr,newstr);方法可以实现,在这就不贴了。源代码部分详见附件。
运行源代码前提:c盘创建YQ目录,将附件中"模板.rtf"复制到YQ目录之下,运行OpreatorRTF.java文件即可,就会在YQ目录下生成文件名如:21时15分19秒_cheney_记录.rtf 的文件。 package com; import java.io.File; import java.io.FileInputStream; import java.io.FileWriter; import java.io.IOException; import java.io.InputStream; import java.io.PrintWriter; import java.text.SimpleDateFormat; import java.util.Date; public class OperatorRTF { public String strToRtf(String content){ char[] digital = "0123456789ABCDEF".toCharArray(); StringBuffer sb = new StringBuffer(""); byte[] bs = content.getBytes(); int bit; for (int i = 0; i bit = (bs[i] & 0x0f0)>> 4; sb.append("\\'"); sb.append(digital[bit]); bit = bs[i] & 0x0f; sb.append(digital[bit]); } return sb.toString(); } public String replaceRTF(String content,String replacecontent,int flag){ String rc = strToRtf(replacecontent); String target = ""; if(flag==0){ target = content.replace("$timetop$",rc); } if(flag==1){ target = content.replace("$info$",rc); } if(flag==2){ target = content.replace("$idea$",rc); } if(flag==3){ target = content.replace("$advice$",rc); } if(flag==4){ target = content.replace("$infosend$",rc); } return target; } public String getSavePath() { String path = "C:\\YQ"; File fDirecotry = new File(path); if (!fDirecotry.exists()) { fDirecotry.mkdirs(); } return path; } public String ToSBC(String input){ char[] c = input.toCharArray(); for (int i =0; i if (c[i] == 32){ c[i] = (char) 12288; continue; } if (c[i] c[i] = (char) (c[i] + 65248); } } return new String(c); } public void rgModel(String username, String content) {// TODO Auto-generated method stub Date current=new Date(); SimpleDateFormat sdf=new java.text.SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); String targetname = sdf.format(current).substring(11,13) + "时"; targetname += sdf.format(current).substring(14,16) + "分"; targetname += sdf.format(current).substring(17,19) + "秒"; targetname += "_" + username +"_记录.rtf"; String strpath = getSavePath(); String sourname = strpath+"\\"+"模板.rtf"; String sourcecontent = ""; InputStream ins = null; try{ ins = new FileInputStream(sourname); byte[] b = new byte[1024]; if (ins == null) { System.out.println("源模板文件不存在"); } int bytesRead = 0; while (true) { bytesRead = ins.read(b, 0, 1024); // return final read bytes counts if(bytesRead == -1) {// end of InputStream System.out.println("读取模板文件结束"); break; } sourcecontent += new String(b, 0, bytesRead); // convert to string using bytes } }catch(Exception e){ e.printStackTrace(); } String targetcontent = ""; String array[] = content.split("~"); for(int i=0;i if(i==0){ targetcontent = replaceRTF(。
3.Java解析word文档
原因被我找到了,因为你的文件里面有换行,点星不支持,所以改用下面的匹配,你一定能成功的!!!!!String reg1 = "[\\s\\S]*性别\\s*(:|:)\\s*([^\\|]*)\\|?[\\s\\S]*";String reg2 = "[\\s\\S]*民族\\s*(:|:)\\s*([^\\|]*)\\|?[\\s\\S]*";String reg3 = "[\\s\\S]*生日\\s*(:|:)\\s*([\\d\\-]*)\\|?[\\s\\S]*";String str = "性别:女士|民族:汉族|生日:1990-9-22\n" + "婚姻状况:已婚|身高:165厘米|体重:50公斤\n" + "户口所在地:广东省顺德容桂镇|目前所在地:广东省顺德容桂镇";String sex = str.replaceAll(reg1, "$2");String mz = str.replaceAll(reg2, "$2");String brith = str.replaceAll(reg3, "$2");System.out.println (sex);System.out.println (mz);System.out.println (brith);你改动了啊,我给你的原版不是这样的啊。
4.java中,解析法律格式的Word文件并按文章、章节、第几条、内容存入
package BookDemo;
import java.io.File;
import java.io.FileWriter;
import java.io.PrintWriter;
import java.sql.*;
import java.util.ArrayList;
import java.util.List;
public class Readsql {
public static void main(String[] args){
Connection conn=null;
Statement stmt = null;
ResultSet rs = null;
try {
Class.forName("com.mysql.jdbc.Driver");
conn = DriverManager.getConnection("jdbc:mysql://localhost/webservice?"+ "user=root&password=1");
stmt = conn.createStatement();
}
5.java:解析word文档(前程无忧简历),最好有代码案例
poi读取前程无忧的简历会打不开的,至少我以前读是这样的,因为他有时候是mht文件直接另存为word文档的,所以保险起见建议用jacob来读,如果他是doc或者是docx文档可以转化为html然后用jsoup来读取,效果挺好的 下面是转化的代码: package com.java.doc;import com.jacob.activeX.ActiveXComponent;import com.jacob.com.Dispatch;import com.jacob.com.Variant;public class JacobRead { public static void extractDoc(String inputFIle, String outputFile) { boolean flag = false; // 打开Word应用程序 ActiveXComponent app = new ActiveXComponent("Word.Application"); try { // 设置word不可见 app.setProperty("Visible", new Variant(false)); // 打开word文件 Dispatch doc1 = app.getProperty("Documents").toDispatch(); Dispatch doc2 = Dispatch.invoke( doc1, "Open", Dispatch.Method, new Object[] { inputFIle, new Variant(false), new Variant(true) }, new int[1]).toDispatch(); // 作为txt格式保存到临时文件 Dispatch.invoke(doc2, "SaveAs", Dispatch.Method, new Object[] { outputFile, new Variant(7) }, new int[1]); // 关闭word Variant f = new Variant(false); Dispatch.call(doc2, "Close", f); flag = true; } catch (Exception e) { e.printStackTrace(); } finally { app.invoke("Quit", new Variant[] {}); } if (flag == true) { System.out.println("Transformed Successfully"); } else { System.out.println("Transform Failed"); } } public static void main(String[] args) { JacobRead.extractDoc("D:/xxxx简历.doc","D:/e.txt"); }}当然,也可以转化为txt读取,这部分代码没保存,你可以到网上找找,和转化成html的方法大差不差。
然后下面是我以前写的poi读取的方式: package TestHanLp;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import org.apache.poi.POIXMLDocument;import org.apache.poi.POIXMLTextExtractor;import org.apache.poi.hwpf.extractor.WordExtractor;import org.apache.poi.openxml4j.opc.OPCPackage;import org.apache.poi.xwpf.extractor.XWPFWordExtractor;import org.apache.poi.xwpf.usermodel.XWPFDocument;public class Test { private static String text = ""; public static String Read(String path) throws Exception{ //解析docx格式的简历 if(path.toLowerCase().endsWith("docx")){ try { OPCPackage oPCPackage = POIXMLDocument.openPackage(path); XWPFDocument xwpf = new XWPFDocument(oPCPackage); POIXMLTextExtractor ex = new XWPFWordExtractor(xwpf); text=ex.getText(); oPCPackage.close(); } catch (FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } }else { //解析doc格式的简历 if(path.toLowerCase().endsWith("doc")){ FileInputStream fis = new FileInputStream(path);// 载入文档 WordExtractor wordExtractor = new WordExtractor(fis); String[] paragraph = wordExtractor.getParagraphText(); StringBuffer stringBuffer = new StringBuffer(); for (int i = 0; i < paragraph.length;="" i++)="" {="" if="" (null="" !="paragraph[i]" &&="" !"".equals(paragraph[i]))="" {="" paragraph[i]="paragraph[i].substring(0," paragraph[i].length()="" -="" 1);//="" 去掉末尾符号="" }="" stringbuffer.append(paragraph[i]).append("\n");//将每一小段隔开="" }="" text="stringBuffer.toString();" }="" }="" return="" text="" ;="" }}望题主采纳="">
转载请注明出处51数据库 » javaword解析