1.如何将word转化为XML格式的文件
在WPS软件中打开word文档,然后另存为XML文件即可。具体操作请参照以下步骤。
1、在电脑上用wps软件打开目标word文件,进入主编辑界面。
2、然后点击软件左上角的WPS文字字样,会弹出一个下拉菜单。
3、接着在下拉菜单中依次点击选项“文件/另存为”。
4、然后会进入到保存的对话框中,在文件类型选项栏中选择“Word XML”的格式。
5、最后点击保存即可。完成以上设置后,即可将word文档转化为XML格式的文件。
2.如何在Word 2007中创建XML文档
如果是从word 2003升级到Word 2007,那么可能会注意到关于XML的某些改变。一方面,你将不能从“XML文档”模板开始新建XML文档。因为Word 2007中不包含“XML文档”模板。
取而代之的是,“任何”文档都变成XML文档。只需简单地选择“office按钮”-“另存为”,并将“保存类型”设置为“word XML文档”。注意“Word 2003 XML文档”选项。它具有“Word XML文档”选项所没有的附加选项。我们稍后进行讲述。
当保存为word XML(Word 2007)格式时,如果想与联合,请在保存之前完成,即使用“开发工具”功能区中的“架构”工具,如同在“架构”部分所讨论的。也可以在首次打开XML文档时应用转换,但是因为我们在此讨论的创建新XML文档,所以这并不是可选项,除非保存后再打开此文件。
一旦装配了架构,“XML结构”任务窗格就会显示出来。单击右边的元素以使用当前文档中的这些元素。
单击任务窗格底部的“XML选项”以访问附加选项。注意“仅保存数据”选项,它不起作用。即使选择了此选项,生成的文件仍然是由wordXML填充的。
可以选择应用自定义转换。一项转换可以是一个清单,另一项转换可以生成一个调回通知,再有一项可以通知预定项目现在可用,等等。
如果“仅保存数据”不起作用,那么怎样才能剥离wordXML以获得更简洁的XML文件呢?如果“office按钮”-“另存为”,并将“保存类型”设置为另一个XML选项――“Word 2003 XML文档”。这样做时,附加选项是可用的,包括“应用转换”和“仅保存数据”。此时“仅保存数据”选项真正能够起作用(虽然保存文件时可能会通知此文件构成混乱)。
3.如何操作 Office Open XML 格式文档
创建一个Office Open XML格式文件 此部分中,您将检测一个包含文本,图像和属性的示例Word 2007文档的XML文件格式。
在Word中创建一个Office Open XML 格式文档1.启动 Word 2007。2.在新建文档中,粘贴以下文本:Soaring with the American Bald Eagle Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Nulla rutrum. Phasellus feugiat bibendum urna. Aliquam lacinia diam ac felis. In vulputate semper orci. Quisque blandit. Mauris et nibh. Aenean nulla. Mauris placerat tempor libero.Pellentesque bibendum. In consequat, sem molestie iaculis venenatis, orci nunc imperdiet justo, id ultricies ligula elit sit amet ante. Sed quis sem. Ut accumsan nulla vel nisi. Ut nulla enim, ullamcorper vel, semper vitae, vulputate vel, mi. Duis id magna a magna commodo interdum.3.高亮显示Soaring with the American Bald Eagle,然后在 开始标签,在样式组中,设置样式为标题。
4.下一步,在文档中插入一张图片:1.将鼠标指针放置在第一段落的末尾,并且点击回车插入新行。2.然后,点击插入标签,点击图片,找到一个图片文件 (例如包含在下载中的Eagle1.gif文件),然后点击插入。
5.现在添加一个文档属性:1.点击Microsoft Office按钮,指向准备,然后点击属性 。2.在文档属性面板中,添加作者名称,标题,主题和备注,类似于以下:表1.文档属性设置 属性 描述 作者 Nancy Davolio 标题 Soaring with the American Bald Eagle 主题 Bald Eagles 备注 A study of the bald eagle6.下一步,在文档中添加一些批注1.在审阅标签下,点击新建批注。
2.在批注框中,输入This is my comment。此时您的文档类似于图1。
图1. 示例Office Word 2007 文档7.下一步,保存文档:1.点击Microsoft Office 按钮,然后点击另存为。2.在另存为文件类型列表中,选择 Word Document (*.docx),然后在文件名称框中输入SampleWordDocument.docx。
3.点击保存。8.关闭Word。
返回页首 浏览Office Open XML格式文件 在此部分中,您将浏览您刚刚创建的示例文档。浏览Office Open XML 格式文档1.打开Windows资源管理器。
2.找到 SampleWordDocument.docx文件,右键点击此文件,然后选择重命名。重要:使用下面的三个步骤来抽取Office Open XML格式文件。
根据您使用的操作系统不同(Windows XP或Windows Vista),第5步有所不同。3.在文件名称后面添加一个.zip扩展名,文件名称现在变为 SampleWordDocument.docx.zip。
4.当弹出警告信息时,点击确定。5.抽取容器文件:1.(如果您使用Windows XP:) 右键点击SampleWordDocument.docx.zip文件,指向打开方式,然后点击Compressed (zipped) Folders。
此时组成文档的文件夹和部件将会显示在资源管理器中。2.(如 果您使用Windows Vista:) 右键点击SampleWordDocument.docx.zip 文件,然后点击Extract All。
在Extract Compressed (Zipped) Folders 对话框中,接受默认位置或者选择一个新的位置,然后点击Extract。此时组成文档的文件夹和部件将会显示在资源管理器中。
在下面的步骤中,您将检测包含在文档中的关键部件。6.检测 [Content_Types].xml部件:1.使用Windows资源管理器,找到名为[Content_Types].xml的文件。
2.右 键点击此文件,指向打开方式,然后点击Internet Explorer。每一个Office Open XML格式文档的根下都有一个 [Content_Types].xml 组件。
[Content_Types].xml组件的作用就是确定文档中每个唯一类型组件。每个组件需要在这个组件中列出它自己的类型。
组件需要有可以识别的类 型,以便应用程序知道当渲染此文档时如何使用这个组件。类型也能够使您了解到组件的作用以及如何使用。
3.关闭文件。7.检测.rels 文件夹:关 联代表着两个组件之间的连接。
关联是存储在_rels子文件夹中的组件。任何组件都有相关联的组件,包含在同结构的_rels文件夹中,此文件夹包含了一 个定义它们关系的.rels组件。
子文件夹创建在与组件相同的文件夹下。一个关联的名称通过在原始组件的文件名后加上.rels扩展名获得 (用于文档文件的关联组件是一个例外;它的名称为“.rels”)。
1.在Windows资源管理器中,双击_rels 文件夹,然后右键点击.rels 文件。2.指向打开方式,点击选择程序,点击Internet Explorer,然后点击确定。
3.完成检测后,关闭IE。8.检测docProps 文件夹:2007版本中的文档属性在三个Microsoft Office System程序中是始终保持结构化的。
分成三个逻辑XML组件,它们被存储自docProps子文件夹下。这使得用户可以很容易的进行访问,因为他们它们在相同的位置并且不会和其它的文档内容混淆。
在Windows资源管理器中,双击docProps 文件夹,右键点击core.xml 文件,指向打开方式,然后点击Internet Explorer。9.检测core.xml 组件:打开 core.xml 组件,然后观察显示的您之前输入的属性。
core.xml组件持有用户输入的用来标识文档的属性,例如标题,主题和作者。10.检测custom.xml 组件:从Windows资源管理器中,在Internet Explorer中打开custom.xml。
custom.xml 组件包含了被用户,开发人员或者通过自定义逻辑。
4.如何将word转化为XML格式的文件
一、使用Jacob转换Word,Excel为HTML “JACOB一个Java-COM中间件.通过这个组件你可以在Java应用程序中调用COM组件和Win32 libraries。”
首先下载Jacob包,JDK1.5以上需要使用Jacob1.9版本(JDK1.6尚未测试),与先前的Jacob1.7差别不大1、将压缩包解压后,Jacob.jar添加到Libraries中;2、将Jacob.dll放至“WINDOWS\SYSTEM32”下面。需要注意的是: 【使用IDE启动Web服务器时,系统读取不到Jacob.dll,例如用MyEclipse启动Tomcat,就需要将dll文件copy到MyEclipse安装目录的“jre\bin”下面。
一般系统没有加载到Jacob.dll文件时,报错信息为:“java.lang.UnsatisfiedLinkError: no jacob in java.library.path”】 新建类:Java代码 public class JacobUtil { public static final int WORD_HTML = 8; public static final int WORD_TXT = 7; public static final int EXCEL_HTML = 44; /** * WORD转HTML * @param docfile WORD文件全路径 * @param htmlfile 转换后HTML存放路径 */ public static void wordToHtml(String docfile, String htmlfile) { ActiveXComponent app = new ActiveXComponent("Word.Application"); // 启动word try { app.setProperty("Visible", new Variant(false)); Dispatch docs = app.getProperty("Documents").toDispatch(); Dispatch doc = Dispatch.invoke( docs, "Open", Dispatch.Method, new Object[] { docfile, new Variant(false), new Variant(true) }, new int[1]).toDispatch(); Dispatch.invoke(doc, "SaveAs", Dispatch.Method, new Object[] { htmlfile, new Variant(WORD_HTML) }, new int[1]); Variant f = new Variant(false); Dispatch.call(doc, "Close", f); } catch (Exception e) { e.printStackTrace(); } finally { app.invoke("Quit", new Variant[] {}); } } /** * EXCEL转HTML * @param xlsfile EXCEL文件全路径 * @param htmlfile 转换后HTML存放路径 */ public static void excelToHtml(String xlsfile, String htmlfile) { ActiveXComponent app = new ActiveXComponent("Excel.Application"); // 启动word try { app.setProperty("Visible", new Variant(false)); Dispatch excels = app.getProperty("Workbooks").toDispatch(); Dispatch excel = Dispatch.invoke( excels, "Open", Dispatch.Method, new Object[] { xlsfile, new Variant(false), new Variant(true) }, new int[1]).toDispatch(); Dispatch.invoke(excel, "SaveAs", Dispatch.Method, new Object[] { htmlfile, new Variant(EXCEL_HTML) }, new int[1]); Variant f = new Variant(false); Dispatch.call(excel, "Close", f); } catch (Exception e) { e.printStackTrace(); } finally { app.invoke("Quit", new Variant[] {}); } } } 当时我在找转换控件时,发现网易也转载了一偏关于Jacob使用帮助,但其中出现了比较严重的错误:String htmlfile = "C:\\AA";只指定到了文件夹一级,正确写法是String htmlfile = "C:\\AA\\xxx.html"; 到此WORD/EXCEL转换HTML就已经差不多了,相信大家应该很清楚了:) 二、使用XPDF将PDF转换为HTML 1、下载xpdf最新版本,地址: 我下载的是xpdf-3.02pl2-win32.zip 2、下载中文支持包我下载的是xpdf-chinese-simplified.tar.gz 3、下载pdftohtml支持包地址: /我下载的是:pdftohtml-0.39-win32.tar.gz 4、解压调试1) 先将xpdf-3.02pl2-win32.zip解压,解压后的内容可根据需要进行删减,如果只需要转换为txt格式,其他的exe文件可以删除,只保留pdftotext.exe,以此类推;2) 然后将xpdf-chinese-simplified.tar.gz解压到刚才xpdf-3.02pl2-win32.zip的解压目录;3) 将pdftohtml-0.39-win32.tar.gz解压,pdftohtml.exe解压到xpdf-3.02pl2-win32.zip的解压目录;4) 目录结构: +---[X:\xpdf] |-------各种转换用到的exe文件 | |-------xpdfrc | +------[X:\xpdf\xpdf-chinese-simplified] | | +-------很多转换时需要用到的字符文件 xpdfrc:此文件是用来声明转换字符集对应路径的文件 5) 修改xpdfrc文件(文件原名为sample-xpdfrc)修改文件内容为: Txt代码 #----- begin Chinese Simplified support package cidToUnicode Adobe-GB1 xpdf-chinese-simplified\Adobe-GB1.cidToUnicode unicodeMap ISO-2022-CN xpdf-chinese-simplified\ISO-2022-CN.unicodeMap unicodeMap EUC-CN xpdf-chinese-simplified\EUC-CN.unicodeMap unicodeMap GBK xpdf-chinese-simplified\GBK.unicodeMap cMapDir Adobe-GB1 xpdf-chinese-simplified\CMap toUnicodeDir xpdf-chinese-simplified\CMap fontDir C:\WINDOWS\Fonts displayCIDFontTT Adobe-GB1 C:\WINDOWS\Fonts\simhei.ttf #----- end Chinese Simplified support package 6) 创建bat文件pdftohtml.bat(放置的路径不能包含空格)内容为: Txt代码 @echo off set folderPath=%1 set filePath=%2 cd /d %folderPath% pdftohtml -enc GBK %filePath% exit 7) 创建类 Java代码 public class ConvertPdf { private static String INPUT_PATH; private static String PROJECT_PATH; public static void convertToHtml(String file, String project) { INPUT_。
5.怎样在Word2010中添加XML打印标记
这些步骤删除所有的智能标记,包括由识别器标记的您不再有的智能标记和在其他人的机器上打开的文档中识别的智能标记。虽然您可以替换已为其安装了识别器的智能标记,但您无法撤消该操作。
1、在“工具”菜单上,单击“自动更正选项”,再单击“智能标记”选项卡。
2、单击“删除智能标记”,再单击“是”确认删除。
注释:Word 从文档中删除智能标记。但是,Word 继续为任何仍处于活动状态的识别器(在“自动更正”对话框的“智能标记”选项卡上的“识别器”列表中选中的识别器)标记智能标记。
提示:若要替换已删除的智能标记,请执行下列操作:
-在“工具”菜单上,单击“自动更正选项”,单击“智能标记”选项卡,选中所需识别器的复选框,再单击“重新检查文档”以刷新和重新应用要在文档中保留的智能标记。
转载请注明出处51数据库 » word中如何添加xml文件