星期四, 九月 20, 2007

在线从图像中识别出文本字符的技术-Optical Character Recognition

大家一定已经知道用扫描仪扫描各种票据、报刊、书籍、文稿、文件及其它印刷品的文字,然后用文字识别软件,可以将图像信息转化为可以使用的文本文字的方法。(有很多错误,需要仔细校对。)

现在,如果你手头没有扫描仪,只有照相机或者只有图片,照样可以这样用这个在线文字识别应用做到:
OCR (Optical Character Recognition-光学字符识别技术)- 在线从图像中识别出文本字符的技术

网站注册一个用户后,您只要上传图片-识别-拷贝文字就可以了。

支持如下功能:

(1)支持TIFF,BMP,JPEG格式图象的识别,尤其支持Packbits和G4压缩的TIFF格式。
(2)可以对图象由于扫描引起的倾斜进行自动校正。
(3)可以对图象进行自动版面分析。
(4)支持GB_2312码(大陆使用)、BIG_5码(台湾使用)、GBK、JIS、KSC、Shift-JIS等内码的输出。
(5)能识别纯英文,简繁体中文、日文、韩文,以及手写体,中英文混排的文本图象。
(6)根据识别结果(默认文件格式为TXT)能够进行版面恢复, 导出RTF,HTML,PDF三种文件格式。

为了取得较为理想的识别效果,建议:

1、提交的图像最好清晰可辨,可参考帮助内的例子,一般来说,分辨率越高越,识别效果越好。
2
、提交的图像最好使用G4压缩(CCITT Group 4)的格式(扩展名为tif),因为在本站所支持的图像格式(tif,bmp,jpg等)中,此格式的图像较小,上传所需时间也就最少。

得到的结果仍然有很多错误,需要仔细校对才能使用。现在的识别效果不是很理想,只能作为打字的辅助(减少打字量)。

光学字符识别(Optical Character Recognition, OCR)已经有30多年历史。近年来又出现了图像字符识别(Image Character Recognition, ICR)和智能字符识别(Intelligent Character Recognition, ICR),这三种自动识别技术的基本原理大致相同。OCR主要应用于办公室自动的文本输入、邮件自动处理和生产加工种产品的跟踪。

这个项目应用了由清华大学电子系研制的国际领先的最新OCR识别技术,提供免费的文字识别服务,旨在推广文字识别技术的应用,为使用传统文档扫描制作电子文档提供方便。

扫描识别结果的例子: http://www.netocr.com/helpsample.aspx

在线文字识别地址:http://www.netocr.com/

没有评论: