一、如何识别图片上的文字
OCR软件都可以的,OFFICE2003以上的版本就有,如果图片质量较好识别率会比较高。
首先“开始”→“程序”→“Microsoft Office”→“Microsoft Office 工具”→“ Microsoft Office Document Scanning”打开“扫描新文档”对话框。 Microsoft Office Document Imaging,用该文件就可以识别了。
安装完成后会弹出扫描新文件对话框,单击[扫描仪]按钮,并选中“在扫描前显示扫描仪驱动”复选框,再选中“黑白模式”,并选中“换页提示”和“扫描后查看文件”两项。 然后单击[扫描]按钮即可进行扫描,点击[捕获]按钮即可得到图片画面,该图片会显示在“图例”框中,然后选中该图片点击[发送]按钮会开始扫描,扫描完成后点[完成]按钮,然后系统会自动打开识别程序Microsoft Office Document Imaging,用该文件就可以识别了。
如果事先已有图片可直接选择用Microsoft Office Document Imaging打开。 完成后可以选中全文,鼠标右击后选中“将文本发送到Word”项,则所选内容便会被Word打开并可以进行编辑了。
二、怎样将扫描文字转换为word文档
巧用Office 2003实现OCR文字输入 为了迎接市里的工作验收,领导拿来了许多存档文件,要求小王在三天内摘录并形成汇报文档。
看着厚厚的材料小王发愁了,这时有人提醒:你的笔记本电脑不是刚装上Office 2003吗,里面的Microsoft Office Document Imaging不错。它是一个光学字符识别(OCR)软件,可以用扫描仪扫入纸文档中的汉字,用它,摘录文件的速度可快多了。
○ 操作准备 局里只有一台比较旧的F1210扫描仪,小王把它连接到笔记本电脑的并口,接通电源以后安装扫描仪驱动程序。单击“开始”-->“所有程序”-->“Microsoft Office工具”中的“Microsoft Office Document Imaging”,将纸文档放入扫描仪,准备将其中的汉字输入Word。
○ 扫描设置 打开Microsoft Office Document Imaging窗口以后,单击工具栏中的“扫描新文档”按钮,即可看到如图1所示的对话框。首先单击其中的“扫描仪”按钮打开选择扫描仪对话框,查看当前扫描仪的型号是否在里面。
如果对话框或下拉列表中没有当前扫描仪,就要检查驱动程序安装和电源连接是否正确。 接下来要根据文档的特点选择扫描预设。
如果是彩色纸张上的黑色或彩色文本,或者是白色纸张上的彩色文本,可以选择“将彩色页面扫描为黑白图片”;对常见的白色纸张上的黑色文本而言,可以选择“黑白模式”或“灰度模式”。 Microsoft Office Document Imaging提供的扫描预设功能可以满足大多数文档的要求。
如果文档使用的字体太小,或者由于纸张等缘故导致文字不太清楚,就得适当调整扫描预设中的分辨率。用户只要选中要调整的某种扫描预设,单击图1中的“预设选项”按钮打开菜单,选择其中的“编辑所选预设”,就可以看到“预设选项”对话框的“常规”选项卡。
单击其中的“高级”按钮打开如图2所示的对话框,可将默认的分辨率(DPI)值由200修改为300。当扫描文档中的文字是彩色或具有彩色背景时,选中图2中的“自动设置对比度,保存为单色”,让扫描的图像具有较高的对比度,这样可以获得更好的文字识别效果。
除此之外,“预设选项”对话框还有三个选项卡。其中“页面”选项卡设置扫描仪的幅面,常见的A4扫描仪应该选择“A4”(默认);“输出”选项卡可以设置扫描文件的保存位置,还可以设置扫描文件的命名方式,可以根据自己的需要进行调整;“处理”选项卡控制OCR的工作设置,一般采用其中的默认值就可以了。
○ 扫描文档 文档放入扫描仪以后,根据其特点选择图1中的某一个扫描预设方式,单击“扫描”按钮开始扫描文档。与大多数OCR软件不同,Microsoft Office Document Imaging扫描结束即开始文字识别,完成后即可在窗口中显示结果。
该窗口分为“缩略图窗格”和“页面窗格”左右两部分。如果用户连续扫描了多页文档,缩略图窗格显示各页的缩略图,页面窗格显示当前文档的图像。
如果用户有多页文档需要扫描和识别,可以在一页扫描结束后再次扫描下一页,完成后会弹出一个对话框。单击“继续”按钮可以放入下一页文档,继续进行扫描,但不识别和保存当前文档;单击“完成”按钮则停止扫描,执行识别并保存文件。
再次扫描新文档时只要将它放入扫描仪,单击图1中的“扫描”按钮即可;单击“取消”按钮会停止扫描,不进行识别也不保存文件。建议把“换页提示”也勾选上,这样可以一次用扫描仪扫描完诺干张纸质文件,然后统一识别转化成word文档,提高工作效率 小提示 Microsoft Office Document Imaging具有自动旋转功能,文档放入扫描仪时无论位置正、倒都可以,软件在扫描过程中会自动识别并旋转到正确的方位。
○ 获取文本 从表面上看,页面窗格显示的是文档图像。其实不然,被识别的文本已经被隐藏在层中了(与文档图像分离)。
我们可以采取两种方法获取该层中的文本。 如果需要某页文档中的部分文字,只要按下工具栏中的“选择”按钮,拖动光标选中页面窗格中需要的文本,单击鼠标右键选择快捷菜单中的“复制”,就可以将这部分文本放入剪贴板,再粘贴到汇报文档中编辑了。
如果单击工具栏中的“将文本发送到Word”按钮,软件就会自动新建一个Word文档,将所选中的识别文字放入其中。以上操作完成后,在页面窗格中的任意位置单击鼠标,就可以取消已经选中的文本,再次获取其它位置的文本了。
(页面中既有文字又有图片,或者既有文字也有表格边框,识别效果可能会受到影响,建议先选中文字,再识别) 当需要某页或几页文档中的所有文本时,可以直接打开工具栏中的“将文本发送到Word”按钮,选择添加到Word的文本范围以及输出版式和保存位置。完成后单击“确定”按钮,即可在指定位置自动保存一个htm文档。
使用“文件”菜单下的“另存为”命令,很容易将它转存为doc文档。 小提示 Microsoft Office Document Imaging能保留原文档的段落结构,这给小王的文档编辑工作带来了很多方便。
后记:OCR软件的种类非常多,例如紫光、尚书、汉王等等。不过Microsoft Office Document Imaging具有良好的易用性,并和Word 2003紧密结合,大家不妨体验一下。
三、识别图片中文字的软件有哪些,对图片格式有无限制
有四款OCR识别软件:汉王6。
0、丹青4。5、清华紫光文通9。
0、尚书7号7。0 汉王 OCR 6。
0 注册版 在最近几年中,OCR识别技术随着扫描仪的普及得到了飞速的发展,扫描、识别软件的性能不断强大并向智能化不断升级发展。 OCR是英文Optical Character Recognition的缩写,意思为光学字符识别,通称为文字识别,它的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,由此可以看出,OCR实际上是让计算机认字,实现文字自动输入。
它是一种快捷、省力、高效的文字输入方法。 汉王OCR 是针对机关单位、企业及有文字录入需求的个人用户,在日常的工作中,快速的对书刊、报纸、公文、宣传页等印刷稿件中内容进行录入的应用需求而推出的。
本产品集成了汉王科技顶尖的文字识别技术,对印刷文稿录入的识别率高达99。 5%,能够识别百余种印刷字体和各种中英繁表图混排格式的文本,。
是理想的文字、表格、图像录入系统。 这样一来,就不用再手工输入大量的资料了,只要扫进去,像那种抓英文的工具一样,让软件自动地转成WORD文档。
即可将图片变成可编辑的文挡格式。 这是目前破解最完美的汉王OCR软件。
清华紫光文通 TH-OCR 9。0 光盘完全特别版 把破解补丁放到安装目录下,运行破解补丁,确定,OK! TH-OCR简介 OCR是英文Optical Character Recognition的缩写,意思为光学字符识别,通称为文字识别,它的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,由此可以看出,OCR实际上是让计算机认字,实现文字自动输入。
它是一种快捷、省力、高效的文字输入方法。 TH-OCR是清华大学自1985年就开始研发的,TH是TsingHua(清华)的缩写,TH-OCR代表北京清华紫光文通信息技术有限公司开发的OCR软件。
在国家“863”计划支持下,持续了十多年的科研成果,从1。 0版本开始已经升级到现在的9。
0版本。独家真正实现了汉英混排同时识别,在国际上首次突破了OCR产品只能处理汉字或英文单一文字的局限性,新增了东方文字(简繁汉、日文、韩文)识别功能,对日文和韩文与英文混排文档的识别水平甚至超过日本和韩国对本国文字的识别水平,在国内、外产生了重大的影响,并连续3年被中国软件行业协会评为优秀软件产品,成为汉字输入技术的一座里程碑。
TH-OCR9。0版本已应用到了包括电子政务、电子出版物、报社、银行、邮政、税务、图书馆等多个领域,成为国内OCR市场的先锋。
本届两会代表的所有提案全部采用了我国自主知识产权的世界识别领域领先产品——清华紫光文通的TH-OCR9。0进行录入识别,它以准确的识别率、优异的识别速度博得了两会工作人员的交口称赞。
而清华TH-OCR技术在两会上的成功应用更论证了我国也完全有实力拥有自己的卓越技术。 TH-OCR的突出特点: ◇ 汉英双语同时混排,识别率最高,居世界领先水平。
◇ 可以识别黑白、灰度、彩色图像,可以读取多种图像格式。 ◇ 首创对识别结果进行电子文档版面复原功能,所见即所得。
◇ 首创日文、韩文、日英混排、韩英混排识别功能,识别率98%以上。 TH-OCR的六大优势: 1。
是唯一可以识别2万多汉字的多体文字识别系统,汉字识别国内最优。 2。
汉字和英文混排、日文和英文混排、韩文和英文混排同时识别。 3。
汉字识别率最高。清华紫光文通TH-OCR经过"863"智能专家组对数十万字的指标评测和中国软件评测中心对产品的严格测试,识别正确率超过99。
5%,代表了目前印刷体文字识别的最高水平。 4。
支持多种环境接口。清华紫光文通TH-OCR支持WINDOWS环境和GB、BIG5、GBK、JIS、SHIFT-JIS和KSC等多种内码,可以用于 WINDOWS NT和WINDOWS 98/2000/XP,适合全球各个地区使用。
TH-OCR还具有自学习功能,不论什么生僻字,都可以通过键盘输入进行学习,大大拓宽了OCR系统的识别字符集。 5。
历次国内鉴定均被中国科学院院土和中国工程院院土等专家组成的鉴定委员会评定为“具有世界领先水平”。 广泛的社会认可: 1、多年来为众多著名的扫描仪厂商HP、UNISCAN、EPSON、CANON、LENOVO等提供TH-OCR普及版作为其扫描仪的捆绑软件。
2、美国MICROSOFT公司将TH-OCR作为东方文字识别捆绑到WINXP 操作系统中。 3、美国MOTOROLA公司确定TH-OCR的部分技术使用权。
4、美国INTEL公司确定TH-OCR为最新的MMX技术支持项目。 5、《计算机世界》市场调查结果,清华紫光文通TH-OCR市场占有率达65%以上。
6、《中国计算机报》 CIWLAB组织的用户调查认为, TH-OCR是一个性能极好的系统,是一个值得用户信赖的系统(对其他品牌OCR评价为:“是值得用户选择的产品”)。 尚书7号OCR文字识别系统完全版 Shocr7。
0 本软件系统是应用OCR(Optical Character Recognition)技术,为满足书籍、报刊杂志。
转载请注明出处51数据库 » word2003文字识别工具