您的当前位置:首页正文

扫描仪的文字识别

来源:华佗健康网
扫描仪的文字识别

编辑整理---迟宝山

借助扫描仪将文字内容以图片形式扫描存人电脑后,然后可利 用OCR文字 识别软件将图形中的文字直接识别为文字文档。一般扫描 仪驱动盘中都附送了

文字识别软件,目前市场上较常见的文字识别软件 有尚书、汉王、紫光、丹青等。 小提示:什么一叫OCR?OCR(Optical Character Recognition)的概念

产生是在1929年,由德国的科学家Tausheck首先提出。它可以将图形中的文 字转换为一个个的字元,并保留其格式,最后达成图像文档转成文字文档的目 的,免去重新打字输入的技术。我们接下来以“尚书七号”为例,介绍一下如 何对已扫描存人电脑中的图像文档进行文字识别。而其它文字识别软件 在使用上也基本相似,在使用时如有问题可多查看软件所带的帮助

说明。在作OCR识别时应以300dpi、黑白二值扫描,并适当调高亮度和 对比度。启动文字识别软件,单击尚书七号工具栏上的“打开”图标, 打开要进行识别的文档,此时便可在原图栏看到图像。 1、图象位置的校正

若扫描的图像文档方向有误,如没有水平,或者图像颠倒,我们可 以在常用

的文字识别软件中进行简单的修正。在菜单栏“编辑”便可在其下看到一些常用 得上的调节方式(如图2)如果图像是上、下颠倒,则可借助“旋转图像→左转 90度”(或者是“右 转90度”)来分两次完成修正。如果在对图

像进行修正时出现错误操作,可利用“编辑”菜单下“恢复原图”来进行恢复。 如果扫描得到的图像出现轻微的倾斜,我们除利用“自动倾斜校正”来进行修 正外,还可选择“手动倾斜校正” 来进行。在进人手动倾斜校正后, 可将指针移到“手动倾斜校正”窗口图像上(不能在红色横坐标上),然后按住鼠 标左键,并移动鼠标,这样便可调整该窗口显示的内容在手动校正时除了可单击 右侧的 “顺时针”或“逆时针”两个按钮外,还可将指针移到红色横坐标中的小方 块上,按住鼠标左键上下移动鼠标,使得水平线条与

文本图像的倾斜角度一致(也可以用键盘上的上下箭头在按钮间切换),校正好 后单击“确认”按钮便可进行校正 (如图3,)

2.需识别的文字选取

在我们实际识别时并不需对整个图像文档进行识别,因此在识别前我们可以进 行范围选取,使图像中的图像、页码等不需要识别进来的内容排除在外,这 样能提高我们的正确识别率。

小提示:若当前图像文档有比较规则的、不需识别的内容,可在工具栏上选 择“恢复鼠标”按粗,然后再将光标箭头移动到当前图像边框处,此时箭头变为 卡住围像边框的双箭头。按下鼠标左键,将该位置的图像边框向内一移动,使 边框只选择当前图像需识别的部分。

在尚书七号中,可在工具栏单击“版面分析,,图标(或者直 接在键盘上敲\"F5\"快捷键),此时软件会自动对文档进行版面分析,并会自动根据 文档来划分方块,每个方块上都有一个数字,此数字表示识别时的排队等待编号, 有些类似于去银行办理业务时领取的号码。若框切分不对,可单击需取消的框, 操作方法为单击“识别”菜单中的“取消当前栏”命令,取消当前栏重新画框;

若整页切分错误较多,可单击工具栏中的“取消版面分析结果”按钮,取消图像 页的全部版面分析。一般我们可以采用手动选取的方法:直接在图像上按下鼠标 左键,拖动鼠标产生方框,使方框正好框住需识别的文字内容后,再松开鼠标 左键,这样便可产生第一个识别区。按照这种方法便可将图像上其它需识别的内 容范围逐个进行选取(如图4)。如果选择范围时次序有错(这样会使识别得到的 文字结果次序产生错误),我们可进行调整。把指针移到需移前的方框上,按下 鼠标左键,拖动鼠标此时会出现一个箭头图标,使它指向另一个需交换次序的方 框上,然后松开鼠标左键,便可使两个方框的序号进行互换(如图5)。

小提示:要使两个方框的序号进行交换,除按上面的操作外,还得注意是从 大号方框上按下鼠标左健,使箭头„指向一个比此方框号要小的方框上时,才会 进行序号交换。

3.文字的识别及修改

完成范围选择之后,单击工具栏上的“开始识别”图标便可进行

快速识别。完成识别后,结果会出现在“文字识别显示栏托,在移动光标时会 显示相应的图形内容,我们可以根据删除、输人或修改操作,注意最上面会显示 可备选的文字或符号,我们可以对菜单进行设置(如图6)其中在识别结果中红色 文字多为出错内容。

小提示:在操作时注意识别软件窗口右下端的状态,为“插入”时不会影响 后面的文字,为“改写“时会对光标所在位置后的文字或字符产生影响·完成修 改后,.我们可以利用复制、粘贴的方法把此文字内容粘贴到其它文本编辑器中 进行编辑和使用。还可利用软件的输出功能进行输出保存,如在尚书七号中可在 菜单栏单击“输出→到指定文件格式”,然后设置好文件保存目录及文件名,

最后单击“保存”按钮进行保存。扫描仪的“身影”如今己是随处可见,然而一般用户只是用它来扫描一些照片,以便放到网上进行展示;殊不知扫描仪在录入文字材料方面也是一把“好手”,通过扫描仪来快速扫描、识别文字,已经成为许多单位用户和个人用户每天必修的“功课”之一。

不过在用扫描仪识别、录入文字材料的过程中,不少人往往只会用扫描仪缺省的设置参数来扫描识别文字,遗憾的是这种识别方法常常无法准确地将材料中的文字识别出来。为了有效提高办公效率,学会一些文字识别的操作技巧,从而提高文字材料的录入速度是非常有必要的。现在,笔者就将自己在扫描识别文字过程中总结出来的一些经验贡献出来,与各位朋友分享一下!

从识别软件挖掘

也许有人说,识别软件不是内置在扫描仪驱动程序中,这有什么好挖掘的?其实不然,不同的OCR扫描识别软件在文字识别的能力以及功能方面是不完全相同的,而挑选一款操作方便、识别能力较强的识别软件是提高文字识别准确率的前提。一般用户通常都会使用扫描仪内置的OEM识别软件,不过这种识别软件相比其他专业的识别软件来说,识别功能不强,文字识别的准确率也不是很高,甚至还无法对中文字体进行识别;而类似尚书OCR6.0、清华紫光OCR2003等专业的文字识别软件,不但在文本自动识别方面有较强的能力,而且在使用功能方面也比较突出一些,选择这些专业的识别软件可以很轻松地提高文字的识别准确率。当然,要是目标文稿中包含的文字具有复杂的格式,比方说段落中出现了首行缩进格

式,文字字体使用了斜体、粗体等格式,那么有的OCR软件在识别这些格式时,常常会识别出乱码来;所以当我们在扫描识别一些具有特殊格式的文字材料时,一定要选用可以支持文字格式的扫描识别软件,只有这样才能获得较高的文字识别成功率。 从放置操作挖掘

不少人都认为放置扫描原稿是一件十分简单的事情,只要将原稿正面的内容对着平板玻璃放置,然后盖上扫描仪的上面盖就可以了;其实原稿的放置操作也会影响文字的准确识别,正确放置文稿的方法应该为先将文稿正面的内容对着平板玻璃放置,然后将文稿位置调整到扫描起始线正中,同时确保扫描仪的平板玻璃表面完整和干净,最后放下扫描仪的上面盖。要是文稿放置有一定倾斜角度的话,一定要在扫描完成后使用旋转工具对倾斜文字进行纠正,不然的话扫描识别程序会将水平笔划看作斜笔划来处理,这样文字识别的正确率就会下降很多。

从识别参数挖掘

在使用OCR识别软件来识别目标文稿中的文字时,常常需要先在识别软件中进行合适的参数设置,毕竟使用默认的参数设置是无法获取最令人满意的效果的。一般来说,需要设置的识别参数主要包括扫描模式设置、分辨率设置、亮度对比度设置等;在识别纯文字材料时,往往只需要将识别软件的扫描模式设置为“黑白”模式就可以了,要是将扫描模式设置为“彩色”或“灰度”模式的话,只会增加扫描识别的时间,而且也不会提高文字识别的准确率。要是被识别的目标文稿质量比较差时,我们可以尝试将扫描模式设置为“灰度”模式,然后用相关的扫描软件对扫描结果进行一下处理再继续进行识别,这样一来文字识别准确率就会大大提高。

在进行分辨率设置时,通常将分辨率设置得越低,扫描仪扫描文本的速度就越快,但扫描出来的文稿效果就越差;相反,将扫描分辨率设置得越高,扫描仪扫描文本的速度就越慢,但扫描出来的文稿效果就越好。不过这一理论并不是千篇一律的,毕竟将扫描分辨率设置得太高的话,文稿纸张上的小斑点都有可能被识别成标点符号,这样一来文字识别准确率反而会得不到提高。经过笔者多次测试发现,如果目标文稿中的文字字号为1、2、3号的话,那我们只需要将扫描分辨率设置为200dpi就可以了;要是目标文稿中的文字使用的是4号或5号字体的话,那可以将扫描分辨率设置为300dpi;高于5号的文字字体,必须将扫描分辨率设置为400dpi以上,但不能超过扫描仪的光学分辨率。

使用合适的扫描亮度与扫描对比度,可以确保目标文稿中的文字黑白分明,这对提高文字识别准确率非常关键;在调整扫描亮度与对比度时,我们应该仔细观察扫描预览效果,当发现预览效果中的文字笔画较细但并没有断开时,就表明此时的亮度和对比度数值是最合适的。如果在识别过程中,发现预览效果中的文字线条较粗较黑而且笔画分不清时,就表明此时的亮度数值设置得小了,我们应该尝试提高一些亮度值来看看;要是发现预览效果中的文字线条看上去凹凸不平,甚至有断线或残缺不全的现象时,那就表明此时的扫描亮度调整得有点高了,我们应尝试将亮度数值降低一些再看看。

此外,“输出信息”的参数设置也会对文字的识别准确率带来一定的影响;在缺省状态下,“输出信息”的数值常常会被设置为100%,这种参数设置仅仅适合那些新墨粉打印出来的文字材料或者印刷出来的报纸、书籍等,相反在扫描识别那些文字色彩比较浅的文稿时,最好能够将“输出信息”的数值调整得稍微大一些,不然的话扫描出来的图象看上去很不清晰,而且文字识别的准确率也不会很高;当然“输出信息”的数值也不能设置得过大,不然会延长扫

描识别的时间,而且还会使识别出来的文字笔画看不清楚。 从识别原稿挖掘

在扫描识别不同类型的原稿时,需要用不同的识别处理方法,才能保证得到比较理想的识别效果。如果原稿为报纸或者半透明文稿的话,那么在扫描识别之前要是不采取任何措施的话,报纸背面的文字很容易透过纸张表面来混淆目标文字的字形,从而会对文字的正确识别造成不小的障碍。为此在扫描识别这类文稿时,最好在原稿背面盖上一张黑纸,同时在扫描过程中,将对比度稍微提高一些,这样就能有效降低背面文字对识别效果的干扰程度了。在扫描识别一些印刷质量较差的文稿时,一定要先进行色调调节操作,以确保扫描结果看上去黑白分明,否则的话扫描图象中有可能会出现许多黑色斑点,从而严重影响文字识别的准确率。当然在对色调参数进行调节时,一定注意观察扫描识别界面中的图象预览效果,并根据预览效果对色调进行反复调整,才能得到非常理想的识别结果。在扫描识别图文混排类型的原稿时,应该先确认一下自己选用的扫描识别应用程序能否支持自动图文分析功能,要是可以支持的话,那我们就应该启用该功能,这样扫描识别程序就会自动分析出目标文稿中的文字内容、文本位置等,而文字内容部分只要按照标示顺序来进行正常识别就可以了。 从手工识别挖掘

现在许多文稿排版为了追求尽善尽美的视觉效果,常常会使用图文混排方式,如果我们将原稿简单地扫描成一幅图像的话,将会严重影响文字的识别准确率。有鉴于此,我们应该根据实际情况,对原稿版面进行手工划分,让其版面分为若干个区域;而且应该保证处于同一区域中的文字字号与字体最好相同,尽量没有图像、图形,每一行的文字宽度应该相同,要是发现宽度长短不一的话,最好再进行细分,通常情况下一次最多能扫描识别10个选择区域。此外根据实际情况,我们还需要对多个选择区域设置好识别顺序。大家千万不能嫌这样的操作比较烦,这可是有效提高文字识别准确率的理想途径之一。

因篇幅问题不能全部显示,请点此查看更多更全内容