word格式python

一、python读取word文档内容

import fnmatch, os, sys, win32com.client readpath=r'D:\123' wordapp = win32com.client.gencache.EnsureDispatch("Word.Application") try: for path, dirs, files in os.walk(readpath): for filename in files: if not fnmatch.fnmatch(filename, '*.docx'):continue doc = os.path.abspath(os.path.join(path,filename)) print 'processing %s。

' % doc wordapp.Documents.Open(doc) docastext = doc[:-4] + 'txt' wordapp.ActiveDocument.SaveAs(docastext,FileFormat=win32com.client.constants.wdFormatText) wordapp.ActiveDocument.Close() finally: wordapp.Quit() print 'end' f=open(r'd:\123\test.txt','r') for line in f.readlines(): print line.decode('gbk') f.close()。

二、python能打开word文档吗

首先下载安装win32comfrom win32com import client as wcword = wc.Dispatch('Word.Application')doc = word.Documents.Open('c:/test')doc.SaveAs('c:/test.text', 2)doc.Close()word.Quit（)这种方式产生的text文档，不能用python用普通的r方式读取，为了让python可以用r方式读取，应当写成doc.SaveAs('c:/test', 4)注意：系统执行完成后，会自动产生文件后缀txt（虽然没有指明后缀）。

在xp系统下面，应当，open(r'c:\text','r')wdFormatDocument = 0wdFormatDocument97 = 0wdFormatDocumentDefault = 16wdFormatDOSText = 4wdFormatDOSTextLineBreaks = 5wdFormatEncodedText = 7wdFormatFilteredHTML = 10wdFormatFlatXML = 19wdFormatFlatXMLMacroEnabled = 20wdFormatFlatXMLTemplate = 21wdFormatFlatXMLTemplateMacroEnabled = 22wdFormatHTML = 8wdFormatPDF = 17wdFormatRTF = 6wdFormatTemplate = 1wdFormatTemplate97 = 1wdFormatText = 2wdFormatTextLineBreaks = 3wdFormatUnicodeText = 7wdFormatWebArchive = 9wdFormatXML = 11wdFormatXMLDocument = 12wdFormatXMLDocumentMacroEnabled = 13wdFormatXMLTemplate = 14wdFormatXMLTemplateMacroEnabled = 15wdFormatXPS = 18照着字面意思应该能对应到相应的文件格式，如果你是office 2003可能支持不了这么多格式。word文件转html有两种格式可选wdFormatHTML、wdFormatFilteredHTML（对应数字 8、10），区别是如果是wdFormatHTML格式的话，word文件里面的公式等ole对象将会存储成wmf格式，而选用 wdFormatFilteredHTML的话公式图片将存储为gif格式，而且目测可以看出用wdFormatFilteredHTML生成的HTML 明显比wdFormatHTML要干净许多。

当然你也可以用任意一种语言通过com来调用office API，比如PHP.from win32com import client as wcword = wc.Dispatch('Word.Application')doc = word.Documents.Open(r'c:/test1.doc')doc.SaveAs('c:/test1.text', 4)doc.Close()import restrings=open(r'c:\test1.text','r').read()result=re.findall('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)',strings)chan=re.sub('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)','()',strings)question=open(r'c:\question','a+')question.write(chan)question.close()answer=open(r'c:\answeronly','a+')for i,a in enumerate(result): m=re.search('[A-D]',a) answer.write(str(i+1)+' '+m.group()+'\n')answer.close()chan=re.sub(r'\xa3\xa8\s*[A-D]\s*\xa3\xa9','()',strings）#不要（），容易引起歧义。

三、python输出word内容

程序导出word文档的方法将web/html内容导出为world文档，再java中有很多解决方案，比如使用Jacob、Apache POI、Java2Word、iText等各种方式，以及使用freemarker这样的模板引擎这样的方式。

php中也有一些相应的方法，但在python中将web/html内容生成world文档的方法是很少的。其中最不好解决的就是如何将使用js代码异步获取填充的数据，图片导出到word文档中。

1. unoconv功能：1.支持将本地html文档转换为docx格式的文档，所以需要先将网页中的html文件保存到本地，再调用unoconv进行转换。转换效果也不错，使用方法非常简单。

\# 安装sudo apt-get install unoconv\# 使用unoconv -f pdf *.odtunoconv -f doc *.odtunoconv -f html *.odt缺点：1.只能对静态html进行转换，对于页面中有使用ajax异步获取数据的地方也不能转换（主要是要保证从web页面保存下来的html文件中有数据）。2.只能对html进行转换，如果页面中有使用echarts,highcharts等js代码生成的图片，是无法将这些图片转换到word文档中；3.生成的word文档内容格式不容易控制。

2. python-docx功能：1.python-docx是一个可以读写word文档的python库。使用方法：1.获取网页中的数据，使用python手动排版添加到word文档中。

from docx import Documentfrom docx.shared import Inchesdocument = Document()document.add_heading('Document Title', 0)p = document.add_paragraph('A plain paragraph having some ')p.add_run('bold').bold = Truep.add_run(' and some ')p.add_run('italic.').italic = Truedocument.add_heading('Heading, level 1', level=1)document.add_paragraph('Intense quote', style='IntenseQuote')document.add_paragraph('first item in unordered list', style='ListBullet')document.add_paragraph('first item in ordered list', style='ListNumber')document.add_picture('monty-truth.png', width=Inches(1.25))table = document.add_table(rows=1, cols=3)hdr_cells = table.rows[0].cellshdr_cells[0].text = 'Qty'hdr_cells[1].text = 'Id'hdr_cells[2].text = 'Desc'for item in recordset:row_cells = table.add_row().cellsrow_cells[0].text = str(item.qty)row_cells[1].text = str(item.id)row_cells[2].text = item.descdocument.add_page_break()document.save('demo.docx')from docx import Documentfrom docx.shared import Inchesdocument = Document()for row in range(9):t = document.add_table(rows=1,cols=1,style = 'Table Grid')t.autofit = False #很重要！w = float(row) / 2.0t.columns[0].width = Inches(w)document.save('table-step.docx')缺点：1.功能非常弱。有很多限制比如不支持模板等，只能生成简单格式的word文档。

程序导出PDF文档方法1.pdfkit功能：1.wkhtmltopdf主要用于HTML生成PDF。2.pdfkit是基于wkhtmltopdf的python封装，支持URL，本地文件，文本内容到PDF的转换，其最终还是调用wkhtmltopdf命令。

是目前接触到的python生成pdf效果较好的。优点：1.wkhtmltopdf：利用webkit内核将HTML转为PDFwebkit是一个高效、开源的浏览器内核，包括Chrome和Safari在内的浏览器都使用了这个内核。

Chrome打印当前网页的功能，其中有一个选项就是直接“保存为 PDF”。2.wkhtmltopdf使用webkit内核的PDF渲染引擎来将HTML页面转换为PDF。

高保真，转换质量很好，且使用非常简单。使用方法：\# 安装pip install pdfkit\# 使用import pdfkitpdfkit.from_url('', 'out.pdf')pdfkit.from_file('test.html', 'out.pdf')pdfkit.from_string('Hello!', 'out.pdf')缺点：1.对使用echarts,highcharts这样的js代码生成的图标无法转换为pdf（因为它的功能主要是将html转换为pdf，而不是将js转换为pdf）。

对于纯静态页面的转换效果还是不错的。2.其他其他生成pdf的插件还有：weasyprint,reportlab,PyPDF2等，经简单试验都不如pdfkit效果好，且有些用法复杂。

四、python如何读取word文件

>>> def PrintAllParagraphs(doc): count=doc.Paragraphs.Count for i in range(count-1,-1,-1): pr=doc.Paragraphs[i].Range print pr.Text >>> app=my.Office.Word.GetInstance()>>> doc=app.Documents[0]>>> PrintAllParagraphs(doc)1.什么是域域应用基础>>> @staticmethod def GetInstance(): u'''获取Word应用程序的Application对象''' import win32com.client return win32com.client.Dispatch('Word.Application')my.Office.Word.GetInstance的方法实现如上，是一个使用win32com操纵Word Com的接口的封装所有Paragraph即段落对象，都是通过Paragraph.Range.Text来访问它的文字的。

五、python能打开word文档吗

六、怎么把python输出为word

程序导出word文档的方法

将web/html内容导出为world文档，再java中有很多解决方案，比如使用Jacob、Apache POI、Java2Word、iText等各种方式，以及使用freemarker这样的模板引擎这样的方式。php中也有一些相应的方法，但在python中将web/html内容生成world文档的方法是很少的。其中最不好解决的就是如何将使用js代码异步获取填充的数据，图片导出到word文档中。

1. unoconv

功能：

1.支持将本地html文档转换为docx格式的文档，所以需要先将网页中的html文件保存到本地，再调用unoconv进行转换。转换效果也不错，使用方法非常简单。

\# 安装

sudo apt-get install unoconv

\# 使用

unoconv -f pdf *.odt

unoconv -f doc *.odt

unoconv -f html *.odt

缺点：

1.只能对静态html进行转换，对于页面中有使用ajax异步获取数据的地方也不能转换（主要是要保证从web页面保存下来的html文件中有数据）。

2.只能对html进行转换，如果页面中有使用echarts,highcharts等js代码生成的图片，是无法将这些图片转换到word文档中；

3.生成的word文档内容格式不容易控制。

2. python-docx

功能：

1.python-docx是一个可以读写word文档的python库。

使用方法：

1.获取网页中的数据，使用python手动排版添加到word文档中。

七、Python常见文件如何操作

# -*-coding:utf8 -*- ''''' Python常见文件操作示例 os.path 模块中的路径名访问函数分隔basename（) 去掉目录路径，返回文件名dirname（) 去掉文件名，返回目录路径join（) 将分离的各部分组合成一个路径名split（) 返回（dirname(), basename（)）元组splitdrive（) 返回（drivename, pathname）元组splitext（) 返回（filename, extension）元组信息getatime（) 返回最近访问时间getctime（) 返回文件创建时间getmtime（) 返回最近文件修改时间getsize（) 返回文件大小（以字节为单位）查询exists（) 指定路径（文件或目录）是否存在isabs（) 指定路径是否为绝对路径isdir（) 指定路径是否存在且为一个目录isfile（) 指定路径是否存在且为一个文件islink（) 指定路径是否存在且为一个符号链接ismount（) 指定路径是否存在且为一个挂载点samefile（) 两个路径名是否指向同个文件 os.path.isdir(name)：判断name是不是一个目录，name不是目录就返回false os.path.isfile(name)：判断name是不是一个文件，不存在name也返回false os.path.exists(name)：判断是否存在文件或目录name os.path.getsize(name)：获得文件大小，如果name是目录返回0L os.path.abspath(name)：获得绝对路径os.path.normpath(path)：规范path字符串形式os.path.split(name)：分割文件名与目录（事实上，如果你完全使用目录，它也会将最后一个目录作为文件名而分离，同时它不会判断文件或目录是否存在） os.path.splitext（)：分离文件名与扩展名os.path.join(path,name)：连接目录与文件名或目录os.path.basename(path)：返回文件名os.path.dirname(path)：返回文件路径 os模块中的文件操作：os 模块属性linesep 用于在文件中分隔行的字符串sep 用来分隔文件路径名的字符串pathsep 用于分隔文件路径的字符串curdir 当前工作目录的字符串名称pardir （当前工作目录的）父目录字符串名称 1.重命名：os.rename(old, new) 2.删除：os.remove(file) 3.列出目录下的文件：os.listdir(path) 4.获取当前工作目录：os.getcwd() 5.改变工作目录：os.chdir(newdir) 6.创建多级目录：os.makedirs(r"c:\python\test") 7.创建单个目录：os.mkdir("test") 8.删除多个目录：os.removedirs(r"c:\python") #删除所给路径最后一个目录下所有空目录。

9.删除单个目录：os.rmdir("test") 10.获取文件属性：os.stat(file) 11.修改文件权限与时间戳：os.chmod(file) 12.执行操作系统命令：os.system("dir") 13.启动新进程：os.exec(), os.execvp() 14.在后台执行程序：osspawnv() 15.终止当前进程：os.exit(), os._exit() 16.分离文件名：os.path.split(r"c:\python\hello.py") ——> （"c:\\python", "hello.py"） 17.分离扩展名：os.path.splitext(r"c:\python\hello.py") ——> （"c:\\python\\hello", ".py"） 18.获取路径名：os.path.dirname(r"c:\python\hello.py") ——> "c:\\python" 19.获取文件名：os.path.basename(r"r:\python\hello.py") ——> "hello.py" 20.判断文件是否存在：os.path.exists(r"c:\python\hello.py") ——> True 21.判断是否是绝对路径：os.path.isabs(r".\python\") ——> False 22.判断是否是目录：os.path.isdir(r"c:\python") ——> True 23.判断是否是文件：os.path.isfile(r"c:\python\hello.py") ——> True 24.判断是否是链接文件：os.path.islink(r"c:\python\hello.py") ——> False 25.获取文件大小：os.path.getsize(filename) 26.*******:os.ismount("c：\\") ——> True 27.搜索目录下的所有文件：os.path.walk() shutil模块对文件的操作：1.复制单个文件：shultil.copy(oldfile, newfle) 2.复制整个目录树：shultil.copytree(r".\setup", r".\backup") 3.删除整个目录树：shultil.rmtree(r".\backup") 临时文件的操作：1.创建一个唯一的临时文件：tempfile.mktemp（) ——> filename 2.打开临时文件：tempfile.TemporaryFile（) 内存文件（StringIO和cStringIO）操作[4.StringIO] #cStringIO是StringIO模块的快速实现模块 1.创建内存文件并写入初始数据：f = StringIO.StringIO("Hello world!") 2.读入内存文件数据：print f.read（) #或print f.getvalue（) ——> Hello world! 3.想内存文件写入数据：f.write("Good day!") 4.关闭内存文件：f.close() ''' import os import os.path import unittest import time #import pygame class PyFileCommonOperatorTest(unittest.TestCase):def __init__(self):"""constructor""" def test01(self):print os.linesep print os.sep print os.pathsep print os.curdir print os.pardir print os.getcwd() print 'unittest here' if __name__ == "__main__":t = PyFileCommonOperatorTest() t.test01() view plainprint? view plainprint？ #读文件的写法：#读文本文件：input = open('data', 'r')#第二个参数是默认的，可以不加#读二进制文件：input = open('data', 'rb') #读取所有文件内容：open('xxoo.txt')。read（) #读取固定字节open('abinfile', 'rb')。

read(100) #读每行file_object.readlines()。

八、python如何获取word文件中某个关键字之后的表格

最好是全部都读取到程序中，在程序中进行判断。

本文实例讲述了Python实现批量读取word中表格信息的方法。分享给大家供大家参考。

具体如下：单位收集了很多word格式的调查表，领导需要收集表单里的信息，我就把所有调查表放一个文件里，写了个python小程序把所需的信息打印出来#coding:utf-8import osimport win32comfrom win32com.client import Dispatch, constantsfrom docx import Documentdef parse_doc(f)："""读取doc，返回姓名和行业"""doc = w.Documents.Open( FileName = f )t = doc.Tables[0] # 根据文件中的图表选择信息name = t.Rows[0].Cells[1].Range.Textsituation = t.Rows[0].Cells[5].Range.Textpeople = t.Rows[1].Cells[1].Range.Texttitle = t.Rows[1].Cells[3].Range.Textprint name, situation, people,titledoc.Close()def parse_docx(f)："""读取docx，返回姓名和行业"""d = Document(f)t = d.tables[0]name = t.cell(0,1).textsituation = t.cell(0,8).textpeople = t.cell(1,2).texttitle = t.cell(1,8).textprint name, situation, people,titleif __name__ == "__main__":w = win32com.client.Dispatch('Word.Application')# 遍历文件PATH = "H:\work\\aaa" # windows文件路径doc_files = os.listdir(PATH)for doc in doc_files:if os.path.splitext(doc)[1] == '.docx':try:parse_docx(PATH+'\\'+doc)except Exception as e:print eelif os.path.splitext(doc)[1] == '.doc':try:parse_doc(PATH+'\\'+doc)except Exception as e:print e希望本文所述对大家的Python程序设计有所帮助。

九、python操作word文档表格

office 2007中不能直接打开VB编辑器，请按Alt + F11打开。

import win32com.client # 导入脚本模块 WordApp = win32com.client.Dispatch("Word.Application") # 载入WORD模块 WordApp.Visible = True # 显示Word应用程序 1、新建Word文档 doc = WordApp.Documents.Add（) # 新建空文件 doc = WordApp.Documents.Open(r"d:\2011专业考试计划.doc") # 打开指定文档 doc.SaveAs(r"d:\2011专业考试计划.doc") # 文档保存 doc.Close(-1) # 保存后关闭，doc.Close（)或doc.Close(0)直接关闭不保存 2、页面设置 doc.PageSetup.PaperSize = 7 # 纸张大小， A3=6, A4=7 doc.PageSetup.PageWidth = 21*28.35 # 直接设置纸张大小，使用该设置后PaperSize设置取消 doc.PageSetup.PageHeight = 29.7*28.35 # 直接设置纸张大小 doc.PageSetup.Orientation = 1 # 页面方向，竖直=0，水平=1 doc.PageSetup.TopMargin = 3*28.35 # 页边距上=3cm,1cm=28.35pt doc.PageSetup.BottomMargin = 3*28.35 # 页边距下=3cm doc.PageSetup.LeftMargin = 2.5*28.35 # 页边距左=2.5cm doc.PageSetup.RightMargin = 2.5*28.35 # 页边距右=2.5cm doc.PageSetup.TextColumns.SetCount(2) # 设置页面分栏=2 3、格式设置 sel = WordApp.Selection # 获取Selection对象 sel.InsertBreak(8) # 插入分栏符=8，分页符=7 sel.Font.Name = "黑体" # 字体 sel.Font.Size = 24 # 字大 sel.Font.Bold = True # 粗体 sel.Font.Italic = True # 斜体 sel.Font.Underline = True # 下划线 sel.ParagraphFormat.LineSpacing = 2*12 # 设置行距，1行=12磅 sel.ParagraphFormat.Alignment = 1 # 段落对齐，0=左对齐，1=居中，2=右对齐 sel.TypeText("XXXX") # 插入文字 sel.TypeParagraph（) # 插入空行注：ParagraphFormat属性必须使用TypeParagraph（)之后才能二次生效。

转载请注明出处51数据库 » word格式python