OCR的制作
转载请注明来自丁香园
发布日期: 2006-07-12 19:20 文章来源: 丁香园
关键词: OCR 文字识别 Acrobat7.0 点击次数:

什么是OCR?

  OCR是英文Optical Character Recognition的缩写,意思为光学字符识别,通称为文字识别,它的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,由此可以看出,OCR实际上是让计算机认字,实现文字自动输入。它是一种快捷、省力、高效的文字输入方法。

我们能用OCR做什么?

    OCR可以将扫描下来的图像转化成文字,我们就可以对文字作各种处理。现在数码相机十分普遍,我们还可以将数码相机照下来的图像中的文字进行识别,然后进行处理。我自己认为,最大的用途就是英文文献经过OCR以后可以鼠标取词,可以选取自己需要的部分拷贝出来。

OCR的制作

   
多种OCR软件中,感觉清华紫光出的识别率比较高,界面也不错,现做以下简介。

清华紫光的OCR

慧视——视觉图像文字识别系统“慧视”是基于文通OCR技术的又一创新应用,该项技术首次将文字识别引领到了视觉图像这一更广阔的应用领域。目前用户可以用“慧视”软件,将数码相机在自然状态下拍摄的图像文字转换成可编辑的文本资料。随意自由地采集文字图像并将它转化为可交流的文字代码信息是“慧视”的发展方向,不远将来人们用手机即时摄取的不同语言图像资料,瞬间就可以将翻译后的母语在手机屏幕上显示并读出声音,使得国际文化交流更顺畅。“慧视”应用技术为数字移动产品的应用开辟了又一全新的市场和发展空间。

小灵鼠——手写识别系统“小灵鼠”是一种全新的纯软件手写文字识别输入系统,该系统是完全开放的,支持所有定标输入装置,灵活、自由、方便的特点,让您走到哪里写到哪里,无论何种类型的电脑使用者都可以使用,不需附加任何特定硬件,无论使用触摸板,还是使用鼠标都可以快速流畅的输入汉字。

产品特点

强大全面:世界最强的中文手写识别识别核心,可识别两万多个汉字的GBK全集,还可以识别数字、英文、标点符号以及常用异体字。

完全开放:用户可通过鼠标、笔记本触摸板、笔式电磁感应屏、电阻触摸屏、手写扳、超声笔等输入装置进行手写输入。

人性输入:全新的隐藏式半透明界面简洁易用,支持自由全屏和快速双框手写输入方式。在全屏手写状态下,可实现鼠标操作与手写输入的智能切换。

编辑便捷:实现即点即得快速编辑功能,只需光标一点,该字符的各种信息将自动浮现,提供候选字、同音字、前后联想、词组联想和动态联想等多种联想方式。

具体使用说明如下图:


Acrobat 7.0 的OCR功能

    Acrobat 7.0增加了很多令人激动的功能,OCR就是其中之一,但也有很大的遗憾,就是不支持中文OCR,主要是看外文文献时使用。具体使用如下:




    应用acrobat 7.0制作OCR并不是太难,但是由于处理数据非常大,一次性处理多了会造成假死机现象,解决的办法就是OCR过程中尽量减少计算机的其它操作。


编辑:蓝色幻想

请点这里参加丁香园论坛讨论 >>

   作者: guoxu302


以下网友留言只代表网友个人观点,不代表网站观点



请输入验证码: