python处理word文档
首先下载安装win32comfrom win32com import client as wcword = wc.Dispatch('Word.Application')doc = word.Documents.Open('c:/test')doc.SaveAs('c:/test.text', 2)doc.Close()word.Quit()这种方式产生的text文档,不能用python用普通的r方式读取,为了让python可以用r方式读取,应当写成doc.SaveAs('c:/test', 4)注意:系统执行完成后,会自动产生文件后缀txt(虽然没有指明后缀)。
在xp系统下面,应当,open(r'c:\text','r')wdFormatDocument = 0wdFormatDocument97 = 0wdFormatDocumentDefault = 16wdFormatDOSText = 4wdFormatDOSTextLineBreaks = 5wdFormatEncodedText = 7wdFormatFilteredHTML = 10wdFormatFlatXML = 19wdFormatFlatXMLMacroEnabled = 20wdFormatFlatXMLTemplate = 21wdFormatFlatXMLTemplateMacroEnabled = 22wdFormatHTML = 8wdFormatPDF = 17wdFormatRTF = 6wdFormatTemplate = 1wdFormatTemplate97 = 1wdFormatText = 2wdFormatTextLineBreaks = 3wdFormatUnicodeText = 7wdFormatWebArchive = 9wdFormatXML = 11wdFormatXMLDocument = 12wdFormatXMLDocumentMacroEnabled = 13wdFormatXMLTemplate = 14wdFormatXMLTemplateMacroEnabled = 15wdFormatXPS = 18照着字面意思应该能对应到相应的文件格式,如果你是office 2003可能支持不了这么多格式。
word文件转html有两种格式可选wdFormatHTML、wdFormatFilteredHTML(对应数字 8、10),区别是如果是wdFormatHTML格式的话,word文件里面的公式等ole对象将会存储成wmf格式,而选用 wdFormatFilteredHTML的话公式图片将存储为gif格式,而且目测可以看出用wdFormatFilteredHTML生成的HTML 明显比wdFormatHTML要干净许多。
当然你也可以用任意一种语言通过com来调用office API,比如PHP.from win32com import client as wcword = wc.Dispatch('Word.Application')doc = word.Documents.Open(r'c:/test1.doc')doc.SaveAs('c:/test1.text', 4)doc.Close()import restrings=open(r'c:\test1.text','r').read()result=re.findall('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)',strings)chan=re.sub('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)','()',strings)question=open(r'c:\question','a+')question.write(chan)question.close()answer=open(r'c:\answeronly','a+')for i,a in enumerate(result): m=re.search('[A-D]',a) answer.write(str(i+1)+' '+m.group()+'\n')answer.close()chan=re.sub(r'\xa3\xa8\s*[A-D]\s*\xa3\xa9','()',strings)#不要(),容易引起歧义。
如何使用python提取并处理word文档中插入的mathtype对象
我没做过,只能提供大概思路给你。
这是mathtype的SDK:,里面关于API的描述:MathType API DocumentationThe MathType API allows you to call functions used by the MathType Commands For Word. On Windows, this API is split between MathPage.WLL and MT6.DLL.这是Stack Overflow上的一个问题,如果你搜到了应该就明白了:。
这个题主在Windows下已经实现了对API的调用。
你可以参考一下。
python的文件处理功能只能在linux界面用吗?
offic不能用时,可以用Microsoft?Toolkit来激活,它是一款免费的Office激活工具,支持一键激活Office2007/2010/2013。
在win7系统下,我试过Office2010,激活后完全能正常使用。
microsoft?toolkit?使用方法你可以看看下面的链接: http://www.uzzf.com/soft/47761.html
怎样安装word2010版
这要看你下载的是什么类型的安装文件了: 如果下载的是RAR压缩包形式的,需要先解压,然后在解压出来的文件夹中找到setup.exe,双击启动安装过程。
如果下载的是ISO形式的,需要使用虚拟光驱加载(如UltraISO、PowerISO等),然后打开虚拟光驱所在盘符,运行setup.exe;当然也可以使用winrar直接解压缩,其余步骤同上。
安装过程: 1)启动安装过程之后,首要要“阅读Microsoft软件许可证条款”,勾选“我接受此协议的条款”,然后“继续”; 2)在“选择所需的安装”画面中,选择“自定义”; 3)在“安装选项”标签页下选择需要安装的软件。
如果只需要WORD2010,请将“Microsoft Word、Office共享功能、Office工具”三项保留,其余各项点击右侧▼,选择“不可用”。
在“文件位置”标签页下设置WORD安装的位置,默认在C:\\Program Files\\下,可以自行更改。
在“用户信息”标签页下设置软件使用者信息,自行填写。
4)点击完成开始安装。
安装过程中可能提示输入序列号。
5)安装结束后,需要进行激活,Microsoft官方要求每180天激活一次。
如果你是下载的版本,请注意阅读其中的安装说明。
怎么将word中的文档变成表格啊?
答:(1)要将行或表格转换成段落,请先选定行或表格。
(2)指向“表格”菜单中的“转换”子菜单,然后单击“表格转换成文字”命令。
(3)在对话框中的“文字分隔符”下,单击所需的字符,作为替代列边框的分隔符。
表格各行用段落标记分隔。
4)单击“确定”按钮。
有哪位大神指导下,Python中文件、模块与包三者之间有什么区别呀?...
展开全部 Python在处理功能复用和功能颗粒度划分时采用了类、模块、包的结构。
这种处理跟C++中的类和名字空间类似,但更接近于Java所采用的概念。
类 类的概念在许多语言中出现,很容易理解。
它将数据和操作进行封装,以便将来的复用。
模块 模块,在Python可理解为对应于一个文件。
在创建了一个脚本文件后,定义了某些函数和变量。
你在其他需要这些功能的文件中,导入这模块,就可重用这些函数和变量。
一般用module_name.fun_name,和module_name.var_name进行使用。
这样的语义用法使模块看起来很像类或者名字空间,可将module_name 理解为名字限定符。
模块名就是文件名去掉.py后缀。
下面演示了一个简单的例子: #moduel1.pydef say(word): print word#caller.pyimport module1print __name__print module1.__name__module1.say('hello')$ python caller.py__main__module1hello例子中演示了从文件中调用模块的方法。
这里还展示了一个有趣的模块属性__name__,它的值由Python解释器设定。
如果脚本文件是作为主程序调用,其值就设为__main__,如果是作为模块被其他文件导入,它的值就是其文件名。
这个属性非常有用,常可用来进行模块内置测试使用,你会经常在一些地方看到类似于下面的写法,这些语句只在作为主程序调用时才被执行。
if __name__ == '__main__': app = wxapp(0) app.MainLoop() 模块搜索路径 上面的例子中,当module1被导入后,python解释器就在当前目录下寻找module1.py的文件,然后再从环境变量PYTHONPATH寻找,如果这环境变量没有设定,也不要紧,解释器还会在安装预先设定的的一些目录寻找。
这就是在导入下面这些标准模块,一切美好事情能发生的原因。
import os import sys import threading... 这些搜索目录可在运行时动态改变,比如将module1.py不放在当前目录,而放在一个冷僻的角落里。
这里你就需要通过某种途径,如sys.path,来告知Python了。
sys.path返回的是模块搜索列表,通过前后的输出对比和代码,应能理悟到如何增加新路径的方法了吧。
非常简单,就是使用list的append()或insert()增加新的目录。
#module2.pyimport sysimport osprint sys.pathworkpath = os.path.dirname(os.path.abspath(sys.argv[0]))sys.path.insert(0, os.path.join(workpath, 'modules'))print sys.path$ python module2.py['e:\\Project\\Python', 'C:\\WINDOWS\\system32\\python25.zip', ...]['e:\\Project\\Python\\modules', 'e:\\Project\\Python', 'C:\\WINDOWS\\system32\\python25.zip', ...]其他的要点 模块能像包含函数定义一样,可包含一些可执行语句。
这些可执行语句通常用来进行模块的初始化工作。
这些语句只在模块第一次被导入时被执行。
这非常重要,有些人以为这些语句会多次导入多次执行,其实不然。
模块在被导入执行时,python解释器为加快程序的启动速度,会在与模块文件同一目录下生成.pyc文件。
我们知道python是解释性的脚本语言,而.pyc是经过编译后的字节码,这一工作会自动完成,而无需程序员手动执行。
包 在创建许许多多模块后,我们可能希望将某些功能相近的文件组织在同一文件夹下,这里就需要运用包的概念了。
包对应于文件夹,使用包的方式跟模块也类似,唯一需要注意的是,当文件夹当作包使用时,文件夹需要包含__init__.py文件,主要是为了避免将文件夹名当作普通的字符串。
__init__.py的内容可以为空,一般用来进行包的某些初始化工作或者设置__all__值,__all__是在from package-name import *这语句使用的,全部导出定义过的模块。
Python为什么要用格式控制工具
标准库Python拥有一个强大的标准库。
Python语言的核心只包含数字、字符串、列表、字典、文件等常见类型和函数,而由Python标准库提供了系统管理、网络通信、文本处理、数据库接口、图形系统、XML处理等额外的功能。
Python标准库的主要功能有:1.文本处理,包含文本格式化、正则表达式匹配、文本差异计算与合并、Unicode支持,二进制数据处理等功能2.文件处理,包含文件操作、创建临时文件、文件压缩与归档、操作配置文件等功能3.操作系统功能,包含线程与进程支持、IO复用、日期与时间处理、调用系统函数、日志(logging)等功能4.网络通信,包含网络套接字,SSL加密通信、异步网络通信等功能5.网络协议,支持HTTP,FTP,SMTP,POP,IMAP,NNTP,XMLRPC等多种网络协议,并提供了编写网络服务器的框架6.W3C格式支持,包含HTML,SGML,XML的处理。
7.其它功能,包括国际化支持、数学运算、HASH、Tkinter等Python社区提供了大量的第三方模块,使用方式与标准库类似。
它们的功能覆盖科学计算、Web开发、数据库接口、图形系统多个领域。
第三方模块可以使用Python或者C语言编写。
SWIG,SIP常用于将C语言编写的程序库转化为Python模块。
Boost C++ Libraries包含了一组函式库,Boost.Python,使得以Python或C++编写的程式能互相调用。
Python常被用做其他语言与工具之间的“胶水”语言。
转载请注明出处51数据库 » python能处理word吗
数学老师指着黑板问约不约