如何利用openoffice读取word文档,并输出在页面上(HTML)
将Word转Html的原理是这样的:1、客户上传Word文档到服务器2、服务器调用OpenOffice程序打开上传的Word文档3、OpenOffice将Word文档另存为Html格式4、Over至此可见,这要求服务器端安装OpenOffice软件,其实也可以是MS Office,不过OpenOffice的优势是跨平台,你懂的。
恩,说明一下,本文的测试基于 MS Win7 Ultimate X64 系统。
下面就是规规矩矩的实现。
1、下载OpenOffice,2、下载Jodconverter 这是一个开启OpenOffice进行格式转化的第三方jar包。
3、泡杯热茶,等待下载。
4、安装OpenOffice,安装结束后,调用cmd,启动OpenOffice的一项服务:C:\Program Files (x86)\OpenOffice.org 3\program>soffice -headless -accept="socket,port=8100;urp;"5、打开eclipse6、喝杯热茶,等待eclipse打开。
7、新建eclipse项目,导入Jodconverter/lib 下得jar包。
* commons-io * jodconverter * juh * jurt * ridl * slf4j-api * slf4j-jdk14 * unoil * xstream 8、Coding...查看代码package com.mzule.doc2html.util;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import java.io.InputStreamReader;import java.net.ConnectException;import java.util.Date;import java.util.regex.Matcher;import java.util.regex.Pattern;import com.artofsolving.jodconverter.DocumentConverter;import com.artofsolving.jodconverter.openoffice.connection.OpenOfficeConnection;import com.artofsolving.jodconverter.openoffice.connection.SocketOpenOfficeConnection;import com.artofsolving.jodconverter.openoffice.converter.OpenOfficeDocumentConverter;/** * 将Word文档转换成html字符串的工具类 * * @author MZULE * */public class Doc2Html { public static void main(String[] args) { System.out .println(toHtmlString(new File("C:/test/test.doc"), "C:/test")); } /** * 将word文档转换成html文档 * * @param docFile * 需要转换的word文档 * @param filepath * 转换之后html的存放路径 * @return 转换之后的html文件 */ public static File convert(File docFile, String filepath) { // 创建保存html的文件 File htmlFile = new File(filepath + "/" + new Date().getTime() + ".html"); // 创建Openoffice连接 OpenOfficeConnection con = new SocketOpenOfficeConnection(8100); try { // 连接 con.connect(); } catch (ConnectException e) { System.out.println("获取OpenOffice连接失败..."); e.printStackTrace(); } // 创建转换器 DocumentConverter converter = new OpenOfficeDocumentConverter(con); // 转换文档问html converter.convert(docFile, htmlFile); // 关闭openoffice连接 con.disconnect(); return htmlFile; } /** * 将word转换成html文件,并且获取html文件代码。
* * @param docFile * 需要转换的文档 * @param filepath * 文档中图片的保存位置 * @return 转换成功的html代码 */ public static String toHtmlString(File docFile, String filepath) { // 转换word文档 File htmlFile = convert(docFile, filepath); // 获取html文件流 StringBuffer htmlSb = new StringBuffer(); try { BufferedReader br = new BufferedReader(new InputStreamReader( new FileInputStream(htmlFile))); while (br.ready()) { htmlSb.append(br.readLine()); } br.close(); // 删除临时文件 htmlFile.delete(); } catch (FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } // HTML文件字符串 String htmlStr = htmlSb.toString(); // 返回经过清洁的html文本 return clearFormat(htmlStr, filepath); } /** * 清除一些不需要的html标记 * * @param htmlStr * 带有复杂html标记的html语句 * @return 去除了不需要html标记的语句 */ protected static String clearFormat(String htmlStr, String docImgPath) { // 获取body内容的正则 String bodyReg = ""; Pattern bodyPattern = Pattern.compile(bodyReg); Matcher bodyMatcher = bodyPattern.matcher(htmlStr); if (bodyMatcher.find()) { // 获取BODY内容,并转化BODY标签为DIV htmlStr = bodyMatcher.group().replaceFirst("", ""); } // 调整图片地址 htmlStr = htmlStr.replaceAll("转换成保留样式 // content = content.replaceAll("(]*>.*?)()", // ""); // 把转换成并删除样式 htmlStr = htmlStr.replaceAll("(]*)(>.*?)()", ""); // 删除不需要的标签 htmlStr = htmlStr .replaceAll( "]*?>", ""); // 删除不需要的属性 htmlStr = htmlStr .replaceAll( "]*)(?:lang|LANG|class|CLASS|style|STYLE|size|SIZE|face|FACE|[ovwxpOVWXP]:\\w+)=(?:'[^']*'|\"\"[^\"\"]*\"\"|[^>]+)([^>]*)>", ""); return htmlStr; }}
在国外 管 咱们用的 word文件 叫什么?说word document 还是什么?
首先你要下载一个ceb阅读器,这种阅读器只有发明ceb格式的部门有,你可以在百度中搜索ceb阅读器来下载。
下载之后,打开软件,点击软件的左上部的打开按钮。
在文件管理器中,找到你的ceb格式的文件,选定之后点击打开按钮,将文件加载到软件当中。
如图所示。
如图所示,这篇文档就被加载到软件中了,跟pdf文件与pdf文件阅读器显示是一样的,只不过换了一种格式以及软件。
基本操作方法是相同的。
在软件上面有一个菜单栏,所有的软件的设置选项都在此菜单栏中。
我们的基本理念就是复制这里面的文字内容,然后复制到word中,这种方法当然很笨,但苦于没有专门的转换软件,就只能这样了。
点击工具后弹出的菜单中,有一个基本工具,将鼠标移动到此选项上,在右键的菜单中选择文件选择工具。
这时候,你用鼠标在文档的文字上面划一下,可以选定了,可以选定就可以复制。
将所有文字都复制一下。
如图。
打开word软件,将复制的文件粘贴到word中,如此反复,直到将全部文档复制完成。
虽然麻烦,但这种事情毕竟也不会经常遇到。
如图,我们在ceb格式文档中复制的内容就到了word中了。
当把所有文档复制转移完成,我们就可以保存了。
点击左上角文件,然后另存为,将文档命名一下,然后点击保存按钮,以doc格式来保存这些内容就可以了。
...
word文档被锁定,无法编辑怎么办
word文档被锁定,无法编辑怎么办?Word文档保护的破解 一般来说,WORD文档有两种密码打开密码和文档保护密码,下面介绍几种破解文档保护密码的方法。
方法1:插入文件法启动WORD,新建一个空白文档,执行“插入”→“文件”打开“插入文件”对话框,定位到需要解除保护的文档所在的文件夹,选中相应文档,单击“插入”按钮,将加密保护的文档插入到新文档中,文档保护会被自动撤销。
方法2:文件另存法 第一步:将受保护的Word文档另存为web页。
具体操作是在“文件”菜单下点击“另存为web页”。
第二步:右击刚另存为的web文件,选择“打开方式”中的“记事本”打开。
第三步:在文档中查找到“forms” 套接字,该套接字之间的内容就是Word文档实际保护的内容。
我们只需将语句Forms更改为Forms,即属性“DocumentProtection”前面加上前缀“un”变为“unDocumentProtection”,由原来的“文档保护”属性变更为目前的“非文档保护”属性。
第四步:保存退出记事本文件,右击web文件,选择“打开方式”中的“Microsoft Word for Windows”,这个时候你会发现,原来受保护的Word文件,现在已经不受保护,可以任意编辑了。
秘密提示(更简便的另存法):打开保护的文档,执行“文件”—“另存为”命令—打开“另存为”对话框—“保存类型”选定为“Web页”,确定保存;右击刚另存的Web文件,选择“打开方式”中的“Microsoft Word for Windows”打开,执行“工具”菜单下的“解除文档保护”命令即可。
方法3:写字板法 右击受保护的WORD文档,选择“打开方式”中的“写字板”,再另存为WORD文档,同时可以取消对文档的保护。
但此方法可能会使文档中的图片等要素丢失。
方法4:第三方软件法(即一般所说的解密软件)...
Word文档不能编辑怎么办
将加密保护的文档插入到新文档中.doc)”,新建一个空白文档,执行“插入——〉文件”命令,打开“插入文件”对话框,定位到需要解除保护的文档所在的文件夹。
但此方法可能会使文档中的图片等要素丢失,执行“文件——〉另存为”命令,打开“另存为”对话框,然后取名保存,关闭该文档,重新打开一下,选中相应文档,单击“插入”按钮,执行“工具——〉取消文档保护”命令即可,文档保护会被自动撤销。
方法2:文件另存法打开保护的文档,复制粘贴到新建文档中。
方法3:写字板法启动写字板,打开保护的WORD文档,另存为WORD文档,同时可以取消对文档的保护,将“文件类型”选定为“WORD97—2003&6.0/95—RTF(*。
或者将文件类型另存为HTML,然后将其中的内容。
方法4是设置了文档保护 没法编辑启动WORD...
如何将PDF文件转换成Word文档?
第一步:打开待转换的PDF文件,选择“文件→打印”,“打印”窗口中将“打印机”“名称”配置为“Microsoft Office Document Image Writer”,确认后将该PDF文件输出为MDI格式的虚拟打印文件。
如在“名称”下没有“Microsoft Office Document Image Writer”,需用 Office 2003安装盘安装该组件。
第二步:双击打开刚才保存的MDI文件,选择“工具→将文本发送到Word”菜单,在弹出的窗口中选“在输出时保持图片版式不变”,确认后提示“必须在执行此操作前重新运行OCR。
这可能须要一些时间”,确认。
完成后,用word打开文档,如果是直接做的PDF,识别率很高的,如果是扫描的,那就得打开word后检查一下了!
普通扑克分析仪是真的吗+大发解说 稳赢科技
点击开始——打印——打印(这里以OFFICE2007为例),保存类型可以选择PDF或者XPS文档保存。
3、因为OFFICE2007以下(包括OFFICE2007)是没有PDF选项的,用户可以通过安装ACROBAT软件来将WORD转换为PDF: 安装好ACORBAT后,打开WORD,系统会自动将WORD转换为PDF,并且 同时打开PDF文档。
以WIN7为例: 1、点击开始——设备和打印机 2、选择Microsoft XPS Document Writer,右键选择【设置为默认打印机】、然后切换到WORD文档: 1)选择文件菜单——导出,点击【创建PDF/XPS】。
2)此时弹出发布为PDF或XPS窗口、:  ,我们将详细分析一下关于函数使用帮助页面的内容。
这一节我们将详细分析一下关于函数使用帮助页面的内容,在第二步中,我们选择函数SUM,然后点“有关该函数的帮助”就会打开如下图的页面,这里有对该函数详细的使用说明,会发现菜单末会多出一个Acrobat菜单,选择Acrobat菜单——点击【创建PDF】: (一)OFFICE2007以下(包括2007版本)是没有PDF选项的 1、这里以OFFICE2016为例,在下面第3步中,就会显示我们选择的“选择函数”里面的函数的使用的相关说明,具体函数的使用可以通过这里来查看、WORD没有【另存为PDF或XPS】选项要分2部分来看; pkpdjy 自 己 做 庄 时 可 以 拿 到 最 大 点 的 牌--------------------------------| | 一 在 任 何 地 方、任 何 光 线 都 可 用,不 受 限 制、可 预 设 玩 法,这 兄 弟 在 卖\∕_﹤信﹥,点击打开后。
4。
2、点击【确定】 有关该函数的帮助”如图蓝色方框包围的部分。
3、如果想要有PDF选项的话,那么安装OFFICE2010以上版本 ...
如何用c++读取word文档
基本步骤(1)创建)一个 MFC 的程序工程。
注意:在VC中对WORD进行操作需要在MFC AppWizard - Step 2 of4中的Automaiton选项上打上勾。
(2)Ctrl+W 执行 ClassWizard(本文按照 VC6 操作,示例程序是在VC6 下编写测试的)。
(3)Add Class...\From a type Library... 在 Office目录中,找到想使用的类型库。
(我使用的是 Office2003,其Word 的类型库文件,保存在 E:\ProgramFiles\Microsoft Office\Office12\MSWOR.OLB)。
(4)选择类型库文件后,在弹出的对话窗中继续选择要添加的类。
具体选择什么类,要看你将来在程序中打算调用什么功能。
当然,也可以不用考虑这么多,用鼠标和Shift键配合,全部选择也可以。
(5)初始化COM。
方法一,找到App的InitInstance()函数,在其中添加AfxOleInit()函数的调用;方法二,在需要调用COM功能的地方 CoInitialize(NULL),调用完毕后CoUninitialize()。
(6)在你需要调用 Office 功能函数的 cpp 文件中 #include //为了方便操作 VARIANT 类型变量,使用 CComVariant 模板类 #include "文件名.h" //具体的头文件名,是由装载类型库的文件名决定的,如MSWORD。
示例程序: //word应用程序 _Application app; //初始化连接 app.CreateDispatch("word.Application"); Documents doc; CComVarianta(_T(strWord)),b(false),c(0),d(true),aa(0),bb(1); _Document doc1; doc.AttachDispatch(app.GetDocuments()); doc1.AttachDispatch(doc.Add(&a,&b,&c,&d)); Range range; //求出文档的所选区域 range=doc1.GetContent();//取出文件内容 str=range.GetText(); m_richedit.SetWindowText(str); //关闭 app.Quit(&b,&c,&c); //释放环境 app.ReleaseDispatch();
怎样把扫描文件转换成WORD形式
1.装一下WORD自带的组件,03和07的都行。
点开始-程序-控制面板-添加/删除程序,找到Office-修改 找到Microsoft Office Document Imaging 这个组件,Microsoft Office Document Imaging Writer 点在本机上运行,安装就可以了。
2.你得先把这些打印稿或文件通过扫描仪扫到电脑上去。
由于是文字扫描通常我们选择“黑白模式”,点击扫描,开始调用扫描仪自带的驱动进行扫描。
这里也要设置为“黑白模式”,建议分辨率为300dpi。
3.之后将扫描好的图片文档另存为“BMP”文档,再将此BMP模式的文档另存为“TIFF”文档。
4.将此TIFF文档在“Microsoft Office Document Imaging”中打开。
点击工具栏中的“使用OCR识别文字”按键,就开始对刚才扫描的文件进行识别了。
按下“将文本发送到Word”按键即可将识别出来的文字转换到 Word中去了。
如果你要获取部分文字,只需要用鼠标框选所需文字,然后点击鼠标右键选择“将文本发送到Word”就将选中区域的文字发送到Word中 了。
...
转载请注明出处51数据库 » w:worddocument