生涯青山--Aming's Blog: 在线从图像中识别出文本字符的技术-Optical Character Recognition

大家一定已经知道用扫描仪扫描各种票据、报刊、书籍、文稿、文件及其它印刷品的文字，然后用文字识别软件，可以将图像信息转化为可以使用的文本文字的方法。（有很多错误，需要仔细校对。）

现在，如果你手头没有扫描仪，只有照相机或者只有图片，照样可以这样用这个在线文字识别应用做到：OCR (Optical Character Recognition-光学字符识别技术)- 在线从图像中识别出文本字符的技术

到网站注册一个用户后，您只要上传图片-识别-拷贝文字就可以了。

支持如下功能：

(1)支持TIFF，BMP，JPEG格式图象的识别，尤其支持Packbits和G4压缩的TIFF格式。
(2)可以对图象由于扫描引起的倾斜进行自动校正。
(3)可以对图象进行自动版面分析。
(4)支持GB_2312码(大陆使用)、BIG_5码(台湾使用)、GBK、JIS、KSC、Shift-JIS等内码的输出。
(5)能识别纯英文，简繁体中文、日文、韩文，以及手写体，中英文混排的文本图象。
(6)根据识别结果(默认文件格式为TXT)能够进行版面恢复, 导出RTF，HTML，PDF三种文件格式。

为了取得较为理想的识别效果,建议：

1、提交的图像最好清晰可辨，可参考帮助内的例子，一般来说，分辨率越高越，识别效果越好。
2、提交的图像最好使用G4压缩（CCITT Group 4）的格式（扩展名为tif），因为在本站所支持的图像格式（tif，bmp，jpg等）中，此格式的图像较小，上传所需时间也就最少。

得到的结果仍然有很多错误，需要仔细校对才能使用。现在的识别效果不是很理想，只能作为打字的辅助（减少打字量）。

光学字符识别（Optical Character Recognition, OCR）已经有30多年历史。近年来又出现了图像字符识别（Image Character Recognition, ICR）和智能字符识别（Intelligent Character Recognition, ICR），这三种自动识别技术的基本原理大致相同。OCR主要应用于办公室自动的文本输入、邮件自动处理和生产加工种产品的跟踪。

这个项目应用了由清华大学电子系研制的国际领先的最新OCR识别技术，提供免费的文字识别服务，旨在推广文字识别技术的应用，为使用传统文档扫描制作电子文档提供方便。

扫描识别结果的例子： http://www.netocr.com/helpsample.aspx

在线文字识别地址：http://www.netocr.com/

生涯青山--Aming's Blog

星期四, 九月 20, 2007

在线从图像中识别出文本字符的技术-Optical Character Recognition

没有评论:

博客归档