python解析word文本

python处理word文档

office 2007中不能直接打开VB编辑器，请按Alt + F11打开。

import win32com.client # 导入脚本模块 WordApp = win32com.client.Dispatch(＂Word.Application＂) # 载入WORD模块 WordApp.Visible = True # 显示Word应用程序 1、新建Word文档 doc = WordApp.Documents.Add() # 新建空文件 doc = WordApp.Documents.Open(r＂d:\2011专业考试计划.doc＂) # 打开指定文档 doc.SaveAs(r＂d:\2011专业考试计划.doc＂) # 文档保存 doc.Close(-1) # 保存后关闭，doc.Close（)或doc.Close(0)直接关闭不保存 2、页面设置 doc.PageSetup.PaperSize = 7 # 纸张大小， A3=6, A4=7 doc.PageSetup.PageWidth = 21*28.35 # 直接设置纸张大小，使用该设置后PaperSize设置取消 doc.PageSetup.PageHeight = 29.7*28.35 # 直接设置纸张大小 doc.PageSetup.Orientation = 1 # 页面方向，竖直=0，水平=1 doc.PageSetup.TopMargin = 3*28.35 # 页边距上=3cm,1cm=28.35pt doc.PageSetup.BottomMargin = 3*28.35 # 页边距下=3cm doc.PageSetup.LeftMargin = 2.5*28.35 # 页边距左=2.5cm doc.PageSetup.RightMargin = 2.5*28.35 # 页边距右=2.5cm doc.PageSetup.TextColumns.SetCount(2) # 设置页面分栏=2 3、格式设置 sel = WordApp.Selection # 获取Selection对象 sel.InsertBreak(8) # 插入分栏符=8，分页符=7 sel.Font.Name = ＂黑体＂ # 字体 sel.Font.Size = 24 # 字大 sel.Font.Bold = True # 粗体 sel.Font.Italic = True # 斜体 sel.Font.Underline = True # 下划线 sel.ParagraphFormat.LineSpacing = 2*12 # 设置行距，1行=12磅 sel.ParagraphFormat.Alignment = 1 # 段落对齐，0=左对齐，1=居中，2=右对齐 sel.TypeText(＂XXXX＂) # 插入文字 sel.TypeParagraph() # 插入空行注：ParagraphFormat属性必须使用TypeParagraph（)之后才能二次生效

python处理word文档

展开全部文本分析是指对文本的表示及其特征项的选取；文本分析是文本挖掘、信息检索的一个基本问题，它把从文本中抽取出的特征词进行量化来表示文本信息。

而Python有大量库，例如jieba、jingjia2等能够对文字进行分析。

通过对问半天呢内容的分析，能够在短时间知道一段文字的标签是什么，情感是什么等等。

...

python操作word文档,如何合并单元格

>>>app=my.Office.Word.GetInstance()>>>doc=app.Documents[0]>>>table=doc.Tables[1]>>>table.Cell(1,1).Select()>>>app.Selection.MoveDown(Unit=5, Count=2, Extend=1)>>>app.Selection.Cells.Merge()>>>1. my.Office.Word.GetInstance（)用win32com得到Word的Application对象的实例2. 我所使用的样本word文件中包含两个Table第二个Table是想要修改的3. table.Cell(1,1).Select（)用于选中这个样表的第一个单元格4. app.Selection.MoveDown用于获得向下多选取3个单元格5. app.Selection.Cells.Merge（)用于执行合并工作

python能打开word文档吗

首先下载安装win32comfrom win32com import client as wcword = wc.Dispatch('Word.Application')doc = word.Documents.Open('c:/test')doc.SaveAs('c:/test.text', 2)doc.Close()word.Quit（)这种方式产生的text文档，不能用python用普通的r方式读取，为了让python可以用r方式读取，应当写成doc.SaveAs('c:/test', 4)注意：系统执行完成后，会自动产生文件后缀txt（虽然没有指明后缀）。

在xp系统下面，应当，open(r'c:\text','r')wdFormatDocument = 0wdFormatDocument97 = 0wdFormatDocumentDefault = 16wdFormatDOSText = 4wdFormatDOSTextLineBreaks = 5wdFormatEncodedText = 7wdFormatFilteredHTML = 10wdFormatFlatXML = 19wdFormatFlatXMLMacroEnabled = 20wdFormatFlatXMLTemplate = 21wdFormatFlatXMLTemplateMacroEnabled = 22wdFormatHTML = 8wdFormatPDF = 17wdFormatRTF = 6wdFormatTemplate = 1wdFormatTemplate97 = 1wdFormatText = 2wdFormatTextLineBreaks = 3wdFormatUnicodeText = 7wdFormatWebArchive = 9wdFormatXML = 11wdFormatXMLDocument = 12wdFormatXMLDocumentMacroEnabled = 13wdFormatXMLTemplate = 14wdFormatXMLTemplateMacroEnabled = 15wdFormatXPS = 18照着字面意思应该能对应到相应的文件格式，如果你是office 2003可能支持不了这么多格式。

word文件转html有两种格式可选wdFormatHTML、wdFormatFilteredHTML（对应数字 8、10），区别是如果是wdFormatHTML格式的话，word文件里面的公式等ole对象将会存储成wmf格式，而选用 wdFormatFilteredHTML的话公式图片将存储为gif格式，而且目测可以看出用wdFormatFilteredHTML生成的HTML 明显比wdFormatHTML要干净许多。

当然你也可以用任意一种语言通过com来调用office API，比如PHP.from win32com import client as wcword = wc.Dispatch('Word.Application')doc = word.Documents.Open(r'c:/test1.doc')doc.SaveAs('c:/test1.text', 4)doc.Close()import restrings=open(r'c:\test1.text','r').read()result=re.findall('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)',strings)chan=re.sub('\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)|\(\s*[A-D]\s*\)|\(\xa1*[A-D]\xa1*\)','()',strings)question=open(r'c:\question','a+')question.write(chan)question.close()answer=open(r'c:\answeronly','a+')for i,a in enumerate(result): m=re.search('[A-D]',a) answer.write(str(i+1)+' '+m.group()+'\n')answer.close()chan=re.sub(r'\xa3\xa8\s*[A-D]\s*\xa3\xa9','()',strings）#不要（），容易引起歧义。

你自己常用的python库还有哪些

展开全部 Python中我们有一些经常看到的库，你们都经常用到哪几个？网络通用 urllib -网络库（stdlib）。

requests -网络库。

grab – 网络库（基于pycurl）。

pycurl – 网络库（绑定libcurl）。

urllib3 – Python HTTP库，安全连接池、支持文件post、可用性高。

httplib2 – 网络库。

RoboBrowser – 一个简单的、极具Python风格的Python库，无需独立的浏览器即可浏览网页。

MechanicalSoup -一个与网站自动交互Python库。

mechanize -有状态、可编程的Web浏览库。

socket – 底层网络接口（stdlib）。

Unirest for Python – Unirest是一套可用于多种语言的轻量级的HTTP库。

hyper – Python的HTTP/2客户端。

PySocks – SocksiPy更新并积极维护的版本，包括错误修复和一些其他的特征。

作为socket模块的直接替换。

异步 treq – 类似于requests的API（基于twisted）。

aiohttp – asyncio的HTTP客户端/服务器（PEP-3156）。

网络爬虫框架 grab – 网络爬虫框架（基于pycurl/multicur）。

scrapy – 网络爬虫框架（基于twisted），不支持Python3。

pyspider – 一个强大的爬虫系统。

cola – 一个分布式爬虫框架。

如果你想学没有软件视频资料可以加qun （二二七）（四三五）（四五零）免费领取其他 portia – 基于Scrapy的可视化爬虫。

restkit – Python的HTTP资源工具包。

它可以让你轻松地访问HTTP资源，并围绕它建立的对象。

demiurge – 基于PyQuery的爬虫微框架。

HTML/XML解析器通用 lxml – C语言编写高效HTML/ XML处理库。

支持XPath。

cssselect – 解析DOM树和CSS选择器。

pyquery – 解析DOM树和jQuery选择器。

BeautifulSoup – 低效HTML/ XML处理库，纯Python实现。

html5lib – 根据WHATWG规范生成HTML/ XML文档的DOM。

该规范被用在现在所有的浏览器上。

feedparser – 解析RSS/ATOM feeds。

MarkupSafe – 为XML/HTML/XHTML提供了安全转义的字符串。

xmltodict – 一个可以让你在处理XML时感觉像在处理JSON一样的Python模块。

xhtml2pdf – 将HTML/CSS转换为PDF。

untangle – 轻松实现将XML文件转换为Python对象。

清理 Bleach – 清理HTML（需要html5lib）。

sanitize – 为混乱的数据世界带来清明。

文本处理用于解析和操作简单文本的库。

通用 difflib – （Python标准库）帮助进行差异化比较。

Levenshtein – 快速计算Levenshtein距离和字符串相似度。

fuzzywuzzy – 模糊字符串匹配。

esmre – 正则表达式加速器。

ftfy – 自动整理Unicode文本，减少碎片化。

转换 unidecode – 将Unicode文本转为ASCII。

字符编码 uniout – 打印可读字符，而不是被转义的字符串。

chardet – 兼容 Python的2/3的字符编码器。

xpinyin – 一个将中国汉字转为拼音的库。

pangu.py – 格式化文本中CJK和字母数字的间距。

Slug化 awesome-slugify – 一个可以保留unicode的Python slugify库。

python-slugify – 一个可以将Unicode转为ASCII的Python slugify库。

unicode-slugify – 一个可以将生成Unicode slugs的工具。

pytils – 处理俄语字符串的简单工具（包括pytils.translit.slugify）。

通用解析器 PLY – lex和yacc解析工具的Python实现。

pyparsing – 一个通用框架的生成语法分析器。

人的名字 python-nameparser -解析人的名字的组件。

电话号码 phonenumbers -解析，格式化，存储和验证国际电话号码。

用户代理字符串 python-user-agents – 浏览器用户代理的解析器。

HTTP Agent Parser – Python的HTTP代理分析器。

特定格式文件处理解析和处理特定文本格式的库。

通用 tablib – 一个把数据导出为XLS、CSV、JSON、YAML等格式的模块。

textract – 从各种文件中提取文本，比如 Word、PowerPoint、PDF等。

messytables – 解析混乱的表格数据的工具。

rows – 一个常用数据接口，支持的格式很多（目前支持CSV,HTML,XLS,TXT – 将来还会提供更多！）。

Office python-docx – 读取，查询和修改的Microsoft Word2007/2008的docx文件。

xlwt / xlrd – 从Excel文件读取写入数据和格式信息。

XlsxWriter – 一个创建Excel.xlsx文件的Python模块。

xlwings – 一个BSD许可的库，可以很容易地在Excel中调用Python，反之亦然。

openpyxl – 一个用于读取和写入的Excel2010 XLSX/ XLSM/ xltx/ XLTM文件的库。

Marmir – 提取Python数据结构并将其转换为电子表格。

PDF PDFMiner – 一个从PDF文档中提取信息的工具。

PyPDF2 – 一个能够分割、合并和转换PDF页面的库。

ReportLab – 允许快速创建丰富的PDF文档。

pdftables – 直接从PDF文件中提取表格。

Markdown Python-Markdown – 一个用Python实现的John Gruber的Markdown。

Mistune – 速度最快，功能全面的Markdown纯Python解析器。

markdown2 – 一个完全用Python实现的快速的Markdown。

YAML PyYAML – 一个Python的YAML解析器。

CSS cssutils – 一个Python的CSS库。

ATOM/RSS feedparser – 通用的feed解析器。

SQL sqlparse – 一个非验证的SQL语句分析器。

HTTP http-parser – C语言实现的HTTP请求/响应消息解析器。

微格式 opengraph – 一个用来解析Open Graph协议标签的Python模块。

可移植的执行体 pefile – 一个多平台的用于解析和...

python怎么解析txt文件

#!/usr/bin/python# -*- coding: UTF-8 -*-import osimport sysdef read_file(filePath):lines=open(filePath).readlines()for line in lines:print lineif __name__ == '__main__':read_file(sys.argv[1])简单的代码示例

转载请注明出处51数据库 » python解析word文本

python处理word文档

python处理word文档

python操作word文档,如何合并单元格

python能打开word文档吗

你自己常用的python库 还有哪些

python怎么解析txt文件

你自己常用的python库还有哪些