word提取图片文字

如何能从图片中提取出文字来？

用Office 2003提取图片中的文字第一步我们需要安装“Microsoft Office Document Imaging”的组件，点“开始→程序”，在 “Microsoft Office 工具” 里点“ Microsoft Office Document Imaging” 即可安装运行。

第二步打开带有文字的图片或电子书籍等，找到你希望提取的页面，按下键盘上的打印屏幕键（PrintScreen）进行屏幕取图。

第三步打开Microsoft Office Word 2003 ，将刚才的屏幕截图粘贴进去；点击“文件”菜单中的“打印”，在安装Microsoft Office Document Imaging组件后，系统会自动安装一个名为“Microsoft Office Document Imaging Writer”的打印机。

“Microsoft Office Document Imaging Writer”打印机，其他选项无须额外设置，点击“确定”按钮后，设定好文件输出的路径及文件名（缺省使用源文件名），然后很快就可以自动生成一个MDI格式的文档了。

打开刚才保存的MDI类型文件（如图3所示），根据你的需要用鼠标选择文字内容（被选中的内容在红色的框内），然后单击鼠标右键，在弹出的快捷菜单中选择“将文本发送到Word”，即可将图片内容自动转换为一个新的Word文档，然后你就可以在Word文档中随心所欲地进行编辑这段文字了。

提示：如果你不想将转换的内容输入到一个新的Word 文档中，而是希望粘贴到一个已经打开的Word 文档，只需在上面的操作中点击右键菜单的“复制”，然后再到指定文档中执行粘贴即可。

如何从图片中提取文字

识别图片文字，图片的分辨率至少要200dpi，最好达到300dpi，高于300dpi处理起来很慢；字迹清晰，不要有重影；适合图片文字较多，文字少的话不如键盘输入，因为符号的识别率低。

识别软件用ABBYY FineReader OCR Pro 10.0.102.95 简体中文破解版，比汉王PDFOCR8.1好，格式为jpg，文字设成中文。

png图片用XnView、ACDsee批量转换成Jpg。

提取图像中的文字

没听说过。

。

一般提取图片中的文字要使用到ocr技术，windows没有自带这个功能的工具。

但是大多数的扫描仪驱动光盘里面会附带这类软件。

比如汉王之类.Office在2003版中增加了Document Imaging工具，用它可以把文字给“抠”出来。

(1)打开传真图片，用抓图软件SnagIt对相关的内容进行抓取，然后在“文件”菜单中选择“复制到剪贴板”命令（也可以用其他抓图软件，当然最简单的是Windows中自带的Print Screen键来抓取整个屏幕，然后在“画图”程序中对不要的部分进行裁剪并保存，然后复制）。

(2)在“开始”菜单的“Microsoft Office工具”中打开Microsoft Office Document Imaging，在左侧窗口中单击鼠标右键，选择“粘贴页面”，把复制的图片粘贴到Document Imaging中，在“工具”中选择“使用OCR识别文本”，Document Imaging的OCR识别程序就会对图片进行识别，完成后选择“工具”中的“将文本发送到Word”，程序会自动打开Word文档，展现在你面前的就是从图片中“抠”出来的文字。

提示：一般而言，识别的准确率可以达到95%以上，但对英文和数字的识别不是太好

如何读取word文档中的文字图片

如下：1、2003版本有对应的处理方法，将图片文件转为文字内容。

http://jingyan.baidu.com/article/c74d60007bc7510f6a595d3c.html软件可下载：Microsoft Office Document Imaging简体中文版2、也可以使用ocr文字识别软件进行转换。

怎么把word2016中,大量图片里的文字提取出来？

使用OCR文字识别软件对图片的文字进行识别即可。

有的手机的照相机和识别软件配套成为一体，拍摄后自动识别，更为方便，无需再进行操作。

相机图标上多了一个＂T＂字，与普通相机所区别。

用word里的工具把图片里的文字拿出来

方法一完全安装的Office2003的前提下，方法是：第一步：转换文件格式。

用ACDSee打开你的.jpg文件，单击界面上的“浏览器”按钮（或者双击当前图片都可以进入到浏览器界面），在打开的浏览器中，右键这个文件，在右键菜单中选择“工具/转换文件格式”；在转换文件格式对话框中，选择TIFF格式，两次下一步后，就开始转换，结果是将你当前的.jpg文件转换成了.tif文件。

第二步：将图片转换为文字。

选择：开始/所有程序/Microsoft Office/Microsoft Office工具/Microsoft Office Document Imaging，打开这个工具后，菜单：文件/打开，找到你保存的那个.tif文件，打开它。

然后选择菜单：工具/使用OCR识别文本；梢等一会儿，继续菜单：工具/将文本发送到Word。

这样，这幅图片就到了Word中成了可以编辑的文字内容了。

因为OCR识别并非百分之百成功，所以有些位置可能需要你进行手动修改。

（如果上述方法不行的话，就先把图片-->.BMP-->.TIF，这样就可以转了，）

图片中提取文字

用OCR软件 OCR的概念是在1929年由德国科学家Tausheck最先提出来的，后来美国科学家Handel也提出了利用技术对文字进行识别的想法。

而最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy,1966年他们发表了第一篇关于汉字识别的文章，采用了模板匹配法识别了1000个印刷体汉字。

早在60、70年代，世界各国就开始有OCR的研究，而研究的初期，多以文字的识别方法研究为主，且识别的文字仅为0至9的数字。

以同样拥有方块文字的日本为例，1960年左右开始研究OCR的基本识别理论，初期以数字为对象，直至1965至1970年之间开始有一些简单的产品，如印刷文字的邮政编码识别系统，识别邮件上的邮政编码，帮助邮局作区域分信的作业；也因此至今邮政编码一直是各国所倡导的地址书写方式。

20世纪70年代初，日本的学者开始研究汉字识别，并做了大量的工作。

中国在OCR技术方面的研究工作起步较晚，在70年代才开始对数字、英文字母及符号的识别进行研究，70年代末开始进行汉字识别的研究，到1986年汉字识别的研究进入一个实质性的阶段，不少研究单位相继推出了中文OCR产品.早期的OCR软件，由于识别率及产品化等多方面的因素，未能达到实际要求。

同时，由于硬件设备成本高，运行速度慢，也没有达到实用的程度。

只有个别部门，如信息部门、新闻出版单位等使用OCR软件。

1986年以后我国的OCR研究有了很大进展，在汉字建模和识别方法上都有所创新，在系统研制和开发应用中都取得了丰硕的成果，不少单位相继推出了中文OCR产品。

进入20世纪90年代以后，随着平台式扫描仪的广泛应用，以及我国信息自动化和办公自动化的普及，大大推动了OCR技术的进一步发展，使OCR的识别正确率、识别速度满足了广大用户的要求一个OCR识别系统，其目的很简单，只是要把影像作一个转换，使影像内的图形继续保存、有表格则表格内资料及影像内的文字，一律变成计算机文字，使能达到影像资料的储存量减少、识别出的文字可再使用及分析，当然也可节省因键盘输入的人力与时间。

从影像到结果输出，须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正，将结果输出。

配套软件 OCR-全能图文互转特别版V10.08-PDFocrjlkuo及模块 VBBS ebs keyvbjoip - 10.09影像输入欲经过OCR处理的标的物须透过光学仪器，如影像扫描仪、传真机或任何摄影器材，将影像转入计算机。

科技的进步，扫描仪等的输入装置已制作的愈来愈精致，轻薄短小、品质也高，对OCR有相当大的帮助，扫描仪的分辨率使影像更清晰、扫除速度更增进OCR处理的效率。

影像前处理：影像前处理是OCR系统中，须解决问题最多的一个模块，从得到一个不是黑就是白的二值化影像，或灰阶、彩色的影像，到独立出一个个的文字影像的过程，都属于影像前处理。

包含了影像正规化、去除噪声、影像矫正等的影像处理，及图文分析、文字行与字分离的文件前处理。

在影像处理方面，在学理及技术方面都已达成熟阶段，因此在市面上或网站上有不少可用的链接库；在文件前处理方面，则凭各家本领了；影像须先将图片、表格及文字区域分离出来，甚至可将文章的编排方向、文章的提纲及内容主体区分开，而文字的大小及文字的字体亦可如原始文件一样的判断出来。

文字特征抽取：单以识别率而言，特征抽取可说是 OCR的核心，用什么特征、怎么抽取，直接影响识别的好坏，也所以在OCR研究初期，特征抽取的研究报告特别的多。

而特征可说是识别的筹码，简易的区分可分为两类：一为统计的特征，如文字区域内的黑/白点数比，当文字区分成好几个区域时，这一个个区域黑/白点数比之联合，就成了空间的一个数值向量，在比对时，基本的数学理论就足以应付了。

而另一类特征为结构的特征，如文字影像细线化后，取得字的笔划端点、交叉点之数量及位置，或以笔划段为特征，配合特殊的比对方法，进行比对，市面上的线上手写输入软件的识别方法多以此种结构的方法为主。

对比数据库：当输入文字算完特征后，不管是用统计或结构的特征，都须有一比对数据库或特征数据库来进行比对，数据库的内容应包含所有欲识别的字集文字，根据与输入文字一样的特征抽取方法所得的特征群组。

对比识别这是可充分发挥数学运算理论的一个模块，根据不同的特征特性，选用不同的数学距离函数，较有名的比对方法有，欧式空间的比对方法、松弛比对法（Relaxation）、动态程序比对法（Dynamic Programming,DP），以及类神经网络的数据库建立及比对、HMM(Hidden Markov Model)…等著名的方法，为了使识别的结果更稳定，也有所谓的专家系统（Experts System）被提出，利用各种特征比对方法的相异互补性，使识别出的结果，其信心度特别的高。

字词后处理：由于OCR的识别率并无法达到百分之百，或想加强比对的正确性及信心值，一些除错或甚至帮忙更正的功能，也成为OCR系统中必要的一个模块。

字词后处理就是一例，利用比对后的识别文字与其可能的相似候选字群中，根据前后的识别文字找出最合乎逻辑的词，...

图片文字提取文字的方法

一般的OCR软件只能识别常用汉字，对于特殊的图片文字，还是以手工录入最为有效，特别是多元输入法（多元汉字与图形符号输入法），可以输入所有汉字（现为国际标准万国码6.2版的7.68余万汉字）以及数万图形符号，包括中日韩越等所有文字和符号，可以多国文字混合排版，而不必切换其他文字的输入法，因此可以说多元输入法是各种文献数字化工程的最佳录入工具。

怎么将图片中的文字内容快速提取到Word

展开全部将图片中的文字内容提取到Word中有很多种方法，可以在Word中手动录入文字，但是这种方法也太麻烦了所以一般不采取这种方法，还有就是借助OCR文字识别软件来实现转换，具体方法如下：打开使用到的迅捷OCR文字识别软件，打开后会出现这样一个页面，点击退出按钮退出该页面。

接着点击软件上方极速识别按钮。

接着点击添加文件按钮，将需要识别转换的图片添加进来。

图片添加成功后会让你选择识别格式和识别效果，识别格式可以点击DOCX或者是DOC，识别效果没有过多的要求，根据自己的需要来选择就好。

上述步骤完成后就可以识别图片了，点击开始识别，待识别完成之后，点击打开文件按钮就可以查看图片转Word的效果了。

希望这种方法能够帮助到你。

...

转载请注明出处51数据库 » word提取图片文字