python能处理word吗

python处理word文档

首先下载安装win32comfrom win32com import client as wcword = wc.Dispatch('Word.Application')doc = word.Documents.Open('c:/test')doc.SaveAs('c:/test.text', 2)doc.Close()word.Quit（)这种方式产生的text文档，不能用python用普通的r方式读取，为了让python可以用r方式读取，应当写成doc.SaveAs('c:/test', 4)注意：系统执行完成后，会自动产生文件后缀txt（虽然没有指明后缀）。

在xp系统下面，应当，open(r'c:\text','r')wdFormatDocument = 0wdFormatDocument97 = 0wdFormatDocumentDefault = 16wdFormatDOSText = 4wdFormatDOSTextLineBreaks = 5wdFormatEncodedText = 7wdFormatFilteredHTML = 10wdFormatFlatXML = 19wdFormatFlatXMLMacroEnabled = 20wdFormatFlatXMLTemplate = 21wdFormatFlatXMLTemplateMacroEnabled = 22wdFormatHTML = 8wdFormatPDF = 17wdFormatRTF = 6wdFormatTemplate = 1wdFormatTemplate97 = 1wdFormatText = 2wdFormatTextLineBreaks = 3wdFormatUnicodeText = 7wdFormatWebArchive = 9wdFormatXML = 11wdFormatXMLDocument = 12wdFormatXMLDocumentMacroEnabled = 13wdFormatXMLTemplate = 14wdFormatXMLTemplateMacroEnabled = 15wdFormatXPS = 18照着字面意思应该能对应到相应的文件格式，如果你是office 2003可能支持不了这么多格式。

word文件转html有两种格式可选wdFormatHTML、wdFormatFilteredHTML（对应数字 8、10），区别是如果是wdFormatHTML格式的话，word文件里面的公式等ole对象将会存储成wmf格式，而选用 wdFormatFilteredHTML的话公式图片将存储为gif格式，而且目测可以看出用wdFormatFilteredHTML生成的HTML 明显比wdFormatHTML要干净许多。

当然你也可以用任意一种语言通过com来调用office API，比如PHP.from win32com import client as wcword = wc.Dispatch('Word.Application')doc = word.Documents.Open(r'c:/test1.doc')doc.SaveAs('c:/test1.text', 4)doc.Close()import restrings=open(r'c:\test1.text','r').read()result=re.findall('$\s*[A-D]\s*$|$\xa1*[A-D]\xa1*$|$\s*[A-D]\s*$|$\xa1*[A-D]\xa1*$',strings)chan=re.sub('$\s*[A-D]\s*$|$\xa1*[A-D]\xa1*$|$\s*[A-D]\s*$|$\xa1*[A-D]\xa1*$','()',strings)question=open(r'c:\question','a+')question.write(chan)question.close()answer=open(r'c:\answeronly','a+')for i,a in enumerate(result): m=re.search('[A-D]',a) answer.write(str(i+1)+' '+m.group()+'\n')answer.close()chan=re.sub(r'\xa3\xa8\s*[A-D]\s*\xa3\xa9','()',strings）#不要（），容易引起歧义。

如何使用python提取并处理word文档中插入的mathtype对象

我没做过，只能提供大概思路给你。

这是mathtype的SDK：，里面关于API的描述：MathType API DocumentationThe MathType API allows you to call functions used by the MathType Commands For Word. On Windows, this API is split between MathPage.WLL and MT6.DLL.这是Stack Overflow上的一个问题，如果你搜到了应该就明白了：。

这个题主在Windows下已经实现了对API的调用。

你可以参考一下。

python的文件处理功能只能在linux界面用吗？

offic不能用时，可以用Microsoft?Toolkit来激活，它是一款免费的Office激活工具，支持一键激活Office2007/2010/2013。

在win7系统下，我试过Office2010，激活后完全能正常使用。

microsoft?toolkit？使用方法你可以看看下面的链接： http://www.uzzf.com/soft/47761.html

怎样安装word2010版

这要看你下载的是什么类型的安装文件了：如果下载的是RAR压缩包形式的，需要先解压，然后在解压出来的文件夹中找到setup.exe，双击启动安装过程。

如果下载的是ISO形式的，需要使用虚拟光驱加载（如UltraISO、PowerISO等），然后打开虚拟光驱所在盘符，运行setup.exe；当然也可以使用winrar直接解压缩，其余步骤同上。

安装过程： 1）启动安装过程之后，首要要“阅读Microsoft软件许可证条款”，勾选“我接受此协议的条款”，然后“继续”； 2）在“选择所需的安装”画面中，选择“自定义”； 3）在“安装选项”标签页下选择需要安装的软件。

如果只需要WORD2010，请将“Microsoft Word、Office共享功能、Office工具”三项保留，其余各项点击右侧▼，选择“不可用”。

在“文件位置”标签页下设置WORD安装的位置，默认在C:\\Program Files\\下，可以自行更改。

在“用户信息”标签页下设置软件使用者信息，自行填写。

4）点击完成开始安装。

安装过程中可能提示输入序列号。

5）安装结束后，需要进行激活，Microsoft官方要求每180天激活一次。

如果你是下载的版本，请注意阅读其中的安装说明。

怎么将word中的文档变成表格啊？

答：（1）要将行或表格转换成段落，请先选定行或表格。

（2）指向“表格”菜单中的“转换”子菜单，然后单击“表格转换成文字”命令。

（3）在对话框中的“文字分隔符”下，单击所需的字符，作为替代列边框的分隔符。

表格各行用段落标记分隔。

4）单击“确定”按钮。

有哪位大神指导下,Python中文件、模块与包三者之间有什么区别呀？...

展开全部 Python在处理功能复用和功能颗粒度划分时采用了类、模块、包的结构。

这种处理跟C++中的类和名字空间类似，但更接近于Java所采用的概念。

类类的概念在许多语言中出现，很容易理解。

它将数据和操作进行封装，以便将来的复用。

模块模块，在Python可理解为对应于一个文件。

在创建了一个脚本文件后，定义了某些函数和变量。

你在其他需要这些功能的文件中，导入这模块，就可重用这些函数和变量。

一般用module_name.fun_name，和module_name.var_name进行使用。

这样的语义用法使模块看起来很像类或者名字空间，可将module_name 理解为名字限定符。

模块名就是文件名去掉.py后缀。

下面演示了一个简单的例子： #moduel1.pydef say(word): print word#caller.pyimport module1print __name__print module1.__name__module1.say('hello')$ python caller.py__main__module1hello例子中演示了从文件中调用模块的方法。

这里还展示了一个有趣的模块属性__name__，它的值由Python解释器设定。

如果脚本文件是作为主程序调用，其值就设为__main__，如果是作为模块被其他文件导入，它的值就是其文件名。

这个属性非常有用，常可用来进行模块内置测试使用，你会经常在一些地方看到类似于下面的写法，这些语句只在作为主程序调用时才被执行。

if __name__ == '__main__': app = wxapp(0) app.MainLoop（) 模块搜索路径上面的例子中，当module1被导入后，python解释器就在当前目录下寻找module1.py的文件，然后再从环境变量PYTHONPATH寻找，如果这环境变量没有设定，也不要紧，解释器还会在安装预先设定的的一些目录寻找。

这就是在导入下面这些标准模块，一切美好事情能发生的原因。

import os import sys import threading... 这些搜索目录可在运行时动态改变，比如将module1.py不放在当前目录，而放在一个冷僻的角落里。

这里你就需要通过某种途径，如sys.path，来告知Python了。

sys.path返回的是模块搜索列表，通过前后的输出对比和代码，应能理悟到如何增加新路径的方法了吧。

非常简单，就是使用list的append（)或insert（)增加新的目录。

#module2.pyimport sysimport osprint sys.pathworkpath = os.path.dirname(os.path.abspath(sys.argv[0]))sys.path.insert(0, os.path.join(workpath, 'modules'))print sys.path$ python module2.py['e:\\Project\\Python', 'C:\\WINDOWS\\system32\\python25.zip', ...]['e:\\Project\\Python\\modules', 'e:\\Project\\Python', 'C:\\WINDOWS\\system32\\python25.zip'， ...]其他的要点模块能像包含函数定义一样，可包含一些可执行语句。

这些可执行语句通常用来进行模块的初始化工作。

这些语句只在模块第一次被导入时被执行。

这非常重要，有些人以为这些语句会多次导入多次执行，其实不然。

模块在被导入执行时，python解释器为加快程序的启动速度，会在与模块文件同一目录下生成.pyc文件。

我们知道python是解释性的脚本语言，而.pyc是经过编译后的字节码，这一工作会自动完成，而无需程序员手动执行。

包在创建许许多多模块后，我们可能希望将某些功能相近的文件组织在同一文件夹下，这里就需要运用包的概念了。

包对应于文件夹，使用包的方式跟模块也类似，唯一需要注意的是，当文件夹当作包使用时，文件夹需要包含__init__.py文件，主要是为了避免将文件夹名当作普通的字符串。

__init__.py的内容可以为空，一般用来进行包的某些初始化工作或者设置__all__值，__all__是在from package-name import *这语句使用的，全部导出定义过的模块。

Python为什么要用格式控制工具

标准库Python拥有一个强大的标准库。

Python语言的核心只包含数字、字符串、列表、字典、文件等常见类型和函数，而由Python标准库提供了系统管理、网络通信、文本处理、数据库接口、图形系统、XML处理等额外的功能。

Python标准库的主要功能有：1.文本处理，包含文本格式化、正则表达式匹配、文本差异计算与合并、Unicode支持，二进制数据处理等功能2.文件处理，包含文件操作、创建临时文件、文件压缩与归档、操作配置文件等功能3.操作系统功能，包含线程与进程支持、IO复用、日期与时间处理、调用系统函数、日志（logging）等功能4.网络通信，包含网络套接字，SSL加密通信、异步网络通信等功能5.网络协议，支持HTTP,FTP,SMTP,POP,IMAP,NNTP,XMLRPC等多种网络协议，并提供了编写网络服务器的框架6.W3C格式支持，包含HTML,SGML,XML的处理。

7.其它功能，包括国际化支持、数学运算、HASH、Tkinter等Python社区提供了大量的第三方模块，使用方式与标准库类似。

它们的功能覆盖科学计算、Web开发、数据库接口、图形系统多个领域。

第三方模块可以使用Python或者C语言编写。

SWIG,SIP常用于将C语言编写的程序库转化为Python模块。

Boost C++ Libraries包含了一组函式库，Boost.Python，使得以Python或C++编写的程式能互相调用。

Python常被用做其他语言与工具之间的“胶水”语言。

转载请注明出处51数据库 » python能处理word吗