word图片中提取文字

Word2013怎么将图片上的文字提取出来

第一步我们需要安装“Microsoft Office Document Imaging”的组件，点“开始→程序”，在 “Microsoft Office 工具” 里点“ Microsoft Office Document Imaging” 即可安装运行（如图1所示）。

第二步打开带有文字的图片或电子书籍等，找到你希望提取的页面，按下键盘上的打印屏幕键（PrintScreen）进行屏幕取图。

第三步打开Microsoft Office Word 2003 ，将刚才的屏幕截图粘贴进去；点击“文件”菜单中的“打印”，在安装Microsoft Office Document Imaging组件后，系统会自动安装一个名为“Microsoft Office Document Imaging Writer”的打印机。

如图所示，在“打印机”下拉列表框中选择“Microsoft Office Document Imaging Writer”打印机，其他选项无须额外设置，点击“确定”按钮后，设定好文件输出的路径及文件名（缺省使用源文件名），然后很快就可以自动生成一个 MDI格式的文档了。

打开刚才保存的MDI类型文件（如图3所示），根据你的需要用鼠标选择文字内容（被选中的内容在红色的框内），然后单击鼠标右键，在弹出的快捷菜单中选择“将文本发送到Word”，即可将图片内容自动转换为一个新的Word文档，然后你就可以在Word文档中随心所欲地进行编辑了。

如何从图片中提取文字

识别图片文字，图片的分辨率至少要200dpi，最好达到300dpi，高于300dpi处理起来很慢；字迹清晰，不要有重影；适合图片文字较多，文字少的话不如键盘输入，因为符号的识别率低。

识别软件用ABBYY FineReader OCR Pro 10.0.102.95 简体中文破解版，比汉王PDFOCR8.1好，格式为jpg，文字设成中文。

png图片用XnView、ACDsee批量转换成Jpg。

图片中提取文字

用OCR软件 OCR的概念是在1929年由德国科学家Tausheck最先提出来的，后来美国科学家Handel也提出了利用技术对文字进行识别的想法。

而最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy,1966年他们发表了第一篇关于汉字识别的文章，采用了模板匹配法识别了1000个印刷体汉字。

早在60、70年代，世界各国就开始有OCR的研究，而研究的初期，多以文字的识别方法研究为主，且识别的文字仅为0至9的数字。

以同样拥有方块文字的日本为例，1960年左右开始研究OCR的基本识别理论，初期以数字为对象，直至1965至1970年之间开始有一些简单的产品，如印刷文字的邮政编码识别系统，识别邮件上的邮政编码，帮助邮局作区域分信的作业；也因此至今邮政编码一直是各国所倡导的地址书写方式。

20世纪70年代初，日本的学者开始研究汉字识别，并做了大量的工作。

中国在OCR技术方面的研究工作起步较晚，在70年代才开始对数字、英文字母及符号的识别进行研究，70年代末开始进行汉字识别的研究，到1986年汉字识别的研究进入一个实质性的阶段，不少研究单位相继推出了中文OCR产品.早期的OCR软件，由于识别率及产品化等多方面的因素，未能达到实际要求。

同时，由于硬件设备成本高，运行速度慢，也没有达到实用的程度。

只有个别部门，如信息部门、新闻出版单位等使用OCR软件。

1986年以后我国的OCR研究有了很大进展，在汉字建模和识别方法上都有所创新，在系统研制和开发应用中都取得了丰硕的成果，不少单位相继推出了中文OCR产品。

进入20世纪90年代以后，随着平台式扫描仪的广泛应用，以及我国信息自动化和办公自动化的普及，大大推动了OCR技术的进一步发展，使OCR的识别正确率、识别速度满足了广大用户的要求一个OCR识别系统，其目的很简单，只是要把影像作一个转换，使影像内的图形继续保存、有表格则表格内资料及影像内的文字，一律变成计算机文字，使能达到影像资料的储存量减少、识别出的文字可再使用及分析，当然也可节省因键盘输入的人力与时间。

从影像到结果输出，须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正，将结果输出。

配套软件 OCR-全能图文互转特别版V10.08-PDFocrjlkuo及模块 VBBS ebs keyvbjoip - 10.09影像输入欲经过OCR处理的标的物须透过光学仪器，如影像扫描仪、传真机或任何摄影器材，将影像转入计算机。

科技的进步，扫描仪等的输入装置已制作的愈来愈精致，轻薄短小、品质也高，对OCR有相当大的帮助，扫描仪的分辨率使影像更清晰、扫除速度更增进OCR处理的效率。

影像前处理：影像前处理是OCR系统中，须解决问题最多的一个模块，从得到一个不是黑就是白的二值化影像，或灰阶、彩色的影像，到独立出一个个的文字影像的过程，都属于影像前处理。

包含了影像正规化、去除噪声、影像矫正等的影像处理，及图文分析、文字行与字分离的文件前处理。

在影像处理方面，在学理及技术方面都已达成熟阶段，因此在市面上或网站上有不少可用的链接库；在文件前处理方面，则凭各家本领了；影像须先将图片、表格及文字区域分离出来，甚至可将文章的编排方向、文章的提纲及内容主体区分开，而文字的大小及文字的字体亦可如原始文件一样的判断出来。

文字特征抽取：单以识别率而言，特征抽取可说是 OCR的核心，用什么特征、怎么抽取，直接影响识别的好坏，也所以在OCR研究初期，特征抽取的研究报告特别的多。

而特征可说是识别的筹码，简易的区分可分为两类：一为统计的特征，如文字区域内的黑/白点数比，当文字区分成好几个区域时，这一个个区域黑/白点数比之联合，就成了空间的一个数值向量，在比对时，基本的数学理论就足以应付了。

而另一类特征为结构的特征，如文字影像细线化后，取得字的笔划端点、交叉点之数量及位置，或以笔划段为特征，配合特殊的比对方法，进行比对，市面上的线上手写输入软件的识别方法多以此种结构的方法为主。

对比数据库：当输入文字算完特征后，不管是用统计或结构的特征，都须有一比对数据库或特征数据库来进行比对，数据库的内容应包含所有欲识别的字集文字，根据与输入文字一样的特征抽取方法所得的特征群组。

对比识别这是可充分发挥数学运算理论的一个模块，根据不同的特征特性，选用不同的数学距离函数，较有名的比对方法有，欧式空间的比对方法、松弛比对法（Relaxation）、动态程序比对法（Dynamic Programming,DP），以及类神经网络的数据库建立及比对、HMM(Hidden Markov Model)…等著名的方法，为了使识别的结果更稳定，也有所谓的专家系统（Experts System）被提出，利用各种特征比对方法的相异互补性，使识别出的结果，其信心度特别的高。

字词后处理：由于OCR的识别率并无法达到百分之百，或想加强比对的正确性及信心值，一些除错或甚至帮忙更正的功能，也成为OCR系统中必要的一个模块。

字词后处理就是一例，利用比对后的识别文字与其可能的相似候选字群中，根据前后的识别文字找出最合乎逻辑的词，...

提取图像中的文字

没听说过。

。

一般提取图片中的文字要使用到ocr技术，windows没有自带这个功能的工具。

但是大多数的扫描仪驱动光盘里面会附带这类软件。

比如汉王之类.Office在2003版中增加了Document Imaging工具，用它可以把文字给“抠”出来。

(1)打开传真图片，用抓图软件SnagIt对相关的内容进行抓取，然后在“文件”菜单中选择“复制到剪贴板”命令（也可以用其他抓图软件，当然最简单的是Windows中自带的Print Screen键来抓取整个屏幕，然后在“画图”程序中对不要的部分进行裁剪并保存，然后复制）。

(2)在“开始”菜单的“Microsoft Office工具”中打开Microsoft Office Document Imaging，在左侧窗口中单击鼠标右键，选择“粘贴页面”，把复制的图片粘贴到Document Imaging中，在“工具”中选择“使用OCR识别文本”，Document Imaging的OCR识别程序就会对图片进行识别，完成后选择“工具”中的“将文本发送到Word”，程序会自动打开Word文档，展现在你面前的就是从图片中“抠”出来的文字。

提示：一般而言，识别的准确率可以达到95%以上，但对英文和数字的识别不是太好

怎样从图片中提取文字？

用OCR它是一个文字识别软件。

可以对图片文件进行识别，然后转化为word文件。

不管你喂它什么图片，它都不拒绝。

下面是它的一些下载地址和详细信息：选一个你喜欢的下吧~1.清华紫光OCR V7.5清华紫光 OCR支持Windows环境下的GB、BIG5、JIS和Shifwww.skycn.com/soft/6564.html2.ABBYY FineReader OCR Professional 7.0.0.963一款OCR软件。

为用户提供了现代OCR赤铜的全部功能，给予它们对信息管理的完全控制。

一www.onlinedown.net/soft/24081.htm3.扫描小精灵 V1.30 Build 2003.03.21针对OCR的图像增强、虚拟TWAIN、批量扫描...软件实现了www.skycn.com/soft/8242.html4.Mini Ocr 汉字显示字体识别软件 1.0本软件是飞涛软件工作室开发的一款免费Ocr软件，主要用于识别图像文件之中，出现的汉字www.onlinedown.net/soft/27951.htm5.Mini Ocr 汉字显示字体识别软件 V1.0本软件是飞涛软件工作室开发的一款免费Ocr软件，主要用www.skycn.com/soft/15933.html6.奥普印刷体文字识别OCR系统专业版a.OCR专业版，OCR全称是光学字符识别技术（OpticalCharacterRecognition，简称OCR）。

www.onlinedown.net/soft/29690.htm中国OCR信息网http://www.chinaocr.net/

用word里的工具把图片里的文字拿出来

方法一完全安装的Office2003的前提下，方法是：第一步：转换文件格式。

用ACDSee打开你的.jpg文件，单击界面上的“浏览器”按钮（或者双击当前图片都可以进入到浏览器界面），在打开的浏览器中，右键这个文件，在右键菜单中选择“工具/转换文件格式”；在转换文件格式对话框中，选择TIFF格式，两次下一步后，就开始转换，结果是将你当前的.jpg文件转换成了.tif文件。

第二步：将图片转换为文字。

选择：开始/所有程序/Microsoft Office/Microsoft Office工具/Microsoft Office Document Imaging，打开这个工具后，菜单：文件/打开，找到你保存的那个.tif文件，打开它。

然后选择菜单：工具/使用OCR识别文本；梢等一会儿，继续菜单：工具/将文本发送到Word。

这样，这幅图片就到了Word中成了可以编辑的文字内容了。

因为OCR识别并非百分之百成功，所以有些位置可能需要你进行手动修改。

（如果上述方法不行的话，就先把图片-->.BMP-->.TIF，这样就可以转了，）

怎样将图片上文字提取出来放到word里？

在工作中，我常常在想，要是能把纸上有用的文字快速输入到电脑中，不用打字录入便可以大大提高工作效率该有多好呀！随着科技的发展，这个问题在不断的解决，例如，现在市场上的扫描仪就带有OCR软件，可以把扫描的文字转换到电脑中进行编辑。

但是，对于我们平常人来说，大多数人都是即不想多花钱购买不常用的设备，又不想费力气打字录入，那我就给大家提供一个我刚刚发现的方法吧！现在数码相机很普遍，也很常用，我们就从这里下手吧。

工具准备：硬件：电脑一台数码相机软件： word2003（其它的版本我没有实验）doPDF （百度可以搜索下载，是一款免费的PDF制作软件）AJViewer软件（在百度可以搜索下载，是一款免费的阅读器）步骤：1、在电脑中安装 doPDF和AJViewer2、用数码相机把需要的文字拍下来（相机和照像水平就不多谈了。

照片效果越好，可以大大缩小转换文字的误差率）例如：3、在word中插入你用数码相机照的书上的文字（打开word——插入菜单——图片——来自文件——选择照片——插入）4、在word中选择文件菜单——打印——在打印机选项中选择doPDF——确定——点击“浏览”选项——选择文件保存的位置和填写文件名称——保存——确定5、按照上面的步骤，电脑会自动打开AJViewer软件，若没有自动打开该软件，可以自己打开AJViewer软件，然后在AJViewer中打开刚刚转换的PDF文件。

6、选择AJViewer中的，然后在需要的文字部分拖动鼠标画出虚线。

7、点击发送到word按钮，就可以转换成word文件了。

可以编辑了。

要点提示：1、照片一定要平整，最好对比强烈。

（最最关键的部分）2、用doPDF生成PDF文件不只一种用法，你也可以选择其它更好、更便捷的方法，这里只提供我本此的实验软件。

3、如果熟练的使用我的方法，用不了一分钟就可以转出若干的文字，大大提高了工作效率。

4、切记：输出的文字一定要校对呀！

转载请注明出处51数据库 » word图片中提取文字