关于计算机字符辨识问题研究

发布时间:2013-12-09 17:02:11 论文编辑:lgg

第 1 章 绪 论


科学技术日新月异的发展对计算机模式识别[1-3]技术提供了广泛的理论实践背景和更高的要求,而数字信号处理中的图像处理[4]作为其中的一个重要方面也面临着巨大的挑战。计算机字符识别[5-7]问题作为其中的一项重要问题越来越受到人们的关注和研究。纸张作为传统的文字存储介质,一直被人们广泛使用,随着计算机技术的发展,人们的目光逐步投向使计算机识别纸质介质上的文字内容和图像内容等的方向上来,它是计算机智能化的一个重要发展趋势,届时人们可以将不易保存的纸质文件上的信息读取到计算机上,既可以存储大量信息又可以节省空间,同时易于长期保存。计算机的这种文字识别技术可以分为印刷体字符识别[8]和手写字符识别;各种语言语种字符识别,例如中文、英文、俄语、阿拉伯语等;各种字体类型字符识别,例如宋体、楷体、幼圆、黑体等;图文、表格或公式等的字符识别等等,其种类复杂多样。


1.1 课题研究的依据
计算机文字识别作为数字信号处理的重要研究方面,一直是众多研究人员研究的热点之一,其应用的范围也非常广泛,在这巨大的应用前景下,人们对字符识别特别是汉字识别的研究就具有重要的实际意义,这些应用方面具体表现在:第一,在信息处理,特别是图像信息、视频信息的处理中,计算机文字识别技术可以大幅度提高计算机的使用效率,如人们将纸质的文件信息通过数码摄像、扫描仪等输入设备变为图像信息,由数字图像处理技术等识别文字信息,转换为计算机可以存储的文字形式,进而可以通过计算机完成对这些文字信息的存储、修改、删除、信息检索等各种操作,这在现代信息处理、尤其是在办公自动化等领域具有十分重要的应用意义。第二,对于普通人的生活来说,计算机文字识别技术的实际产品之一—阅读机可以帮助人们加宽阅读面,对于正常人来说,人们利用计算机识别文字,可以阅读报纸、杂志和其他书籍等,这样就可以边做其他工作边阅读,而对于老人,小孩和一些文化程度不高的人来说,通过计算机文字识别,人们可以摆脱年龄、文化程度等的差异阅读各种书籍,使人们的生活能更加丰富多彩。第三,在智能计算机的应用方面,文字识别技术是智能计算机应用接口的重要的构成部分。由于人类的输入速度有着明显的局限性,又随着人们对于计算机智能部分的需求越来越高,所以代替人类所能做的部分工作就成为智能计算机研究的出发点,这种出发点使计算机具有了能够看懂文档中的文字、图像等内容的功能,即计算机自动文字识别。第四,文字识别技术在邮件分类,机器翻译,模式识别,信息论等学科和领域中也有着广泛应用。以上分析了计算机文字识别技术广泛的实际应用领域,它为本文提供了文字识别这个课题研究的理论应用意义和巨大的实践意义,是研究计算机文字识别的重要依据。


1.2 计算机文字识别国内外研究现状分析
国内市场上关于计算机文字识别的产品—光标阅读机[9]大都应用于教育考试,各种咨询、调查、测评以及政府干部选举考核识别答题卡、测评卡、信息卡等。而支持 txt、html 等格式的计算机文字识别已达到了很高的识别率。但这要在 txt 文本资源比较丰富的前提下,若遇到其他文本纸质资料直接识别的情况,这种光标阅读机就不能实现了。关于国外近况,09 年因特尔公司的健康部门发布了一款名为 Intel Reader 的阅读机[10],该阅读机通过内置摄像头拍摄纸张上的文字,然后通过阅读机内的处理器进行文字识别发声。只是这款机器只能识别英文字符,不能识别中文字符,对于中国人来说并不方便。但通过这款机器可以看出对于英文字符的识别也达到了很高的精确度。因为这款机器有一个金属大支架,拍摄的字符图像较为规整,所以这款机器也是在较为理想的规整的情况下识别字符,在字符图像倾斜或一些较为复杂的情况并不适用。国内学术界在字符识别方面也已经有广泛研究,单个汉字字符、字体、字形的识别已经可以达到百分之九十六的识别率,较为理想状态下的小段字符的识别也已经较为成熟。


第 2 章 前期预处理


文稿图像识别和文稿图像处理技术都需要进行前期的预处理过程[29],这一过程的主要目的是消除文稿图像中的许多无用的冗余信息,放大有用的图像信息,从而为文稿图像处理的下一步识别工作提供前提和基础。本文的前期预处理过程严格来说分为三个步骤,分别是灰度化处理[30],阈值设定和二值化处理[31]。图像的二值化方法就是设定一个二值化阈值,用此阈值与图像中的各个像素点进行比较,若大于二值化阈值则认为此点值为 1,若小于这个阈值则认为此点为背景点,即为 0。它的基本要求是二值化后的图像能真实的反映原来的汉字;其阈值的选取方法分为全局阈值法[33]、局部阈值法[34]、动态阈值法[35]三大类。对于本文来说,由于二值化处理之前已经设定了一个阈值限制值,所以实际上本文所取的阈值就应用的是全局阈值法方法。并且灰度值为 255 的像素点二值化后数值变成了 1,灰度值为 0 的像素点不变。本章通过阐述图像处理中的预处理过程,分析了应用于本文的预处理的三个步骤,即图像灰度化处理、阈值限制、图像二值化处理。预处理的结果是只保留图像信息中的文字部分,并且将文字部分的像素值全部变成了数值为 1,背景部分的像素值全部为 0 的形式。这样,再为进行本文后续的思考分析和实际处理就提供了很好的基础和前提。


第 3 章 对计算机文字识别角度倾斜校正问题........3
3.1 本文基础校正算法 ........13
3.1.1 寻找边缘点 ........ 15
3.1.2 初步校正 ........15
3.1.3 字符图像的旋转 ........23
3.3 基于本文直线校正法之进一步研究........25
3.4 基于本文直线校正法之进一步研究—倾斜图像........ 28
3.5 基于本文直线校正法之进一步讨论—距离问题........35
3.6 本章小结 ........ 35
第 4 章 对计算机文字识别中抗笔迹干扰问题........37
4.1 去除文字图像行间笔迹干扰........37
4.2 去除字符区域周围的笔迹干扰研究 ........ 44
4.3 去除文字上划线部分的干扰研究........ 46
4.4 本章小结 ......... 47


结论


在计算机模式识别及图像处理的领域中,计算机文字识别是其中非常重要的一个研究方面,在实际的研究过程中,会遇到各种各样的问题,本文就研究并着力解决其中两个问题—校正角度倾斜问题和去除笔记干扰问题。文章首先从两个方面讨论了课题研究的依据和实际意义,第一,本课题在实际生活中具有广泛的应用前景,第二,关于计算机文字识别在实际应用过程中还存在很多问题需要解决。正是由于这两个方面的原因,提供给了本文研究计算机文字识别问题的重要实际意义和依据。本文的算法方面首先对原图像进行一系列的预处理工作包括灰度化处理、阈值设定去噪、二值化处理等等,通过这些处理工作使原图像变换为汉字部分像素值为 1,其他背景部分的像素值为 0,本文中所涉及到的倾斜校正算法和去除笔记干扰算法都是在经过这样预处理之后的图像的基础上来实现的。在字符图像倾斜校正算法中,本文检测文字区域的上边缘点,这些点中一定会有绝大多数分布在某一条或者某几条直线上,再通过将这些边缘点代入到倾斜直线中,记录每次有多少个点符合直线方程,并且这些符合直线方程数目最多的那条直线就是文字图像的倾斜直线,其中倾斜直线的斜率和截距需要一一确定,确定了倾斜直线,此直线对应的倾斜角就是字符图像的倾斜角。并且本文的算法解决了在 0~360 度角度范围内字符图像的倾斜,通过基础校正算法进行了初步校正,还需将初步校正为规整文字图像倾斜 0 度、90 度、180 度、270 度的图像进行进一步校正,所以本文的第三个步骤就是通过进行模板匹配得到文字图像的准确旋转角度,进行完全校正。其次,本文还进一步解决了存在笔记干扰时倾斜图像的校正,将检测字符区域的一个边缘扩展到了检测字符区域的其他边缘,实现此类图像的初步校正,其他的直线校正算法都没有解决这个问题,这一点相比其他的校正算法是一大进步。


参考文献
[1] 冈萨雷斯. 数字图像处理. 第二版. 北京:电子工业出版社,2003
[2] Y. Dai, H. Q. Ma. A high performance license plate recognition system based on the webtechnique. IEEE Intelligent Transportaion Systems ConferenceProceedings(CA)Oakland,USA,2001
[3] H.A.Hegt,J.Delahaye. A High Performance License Plate Recognition System. IEEE,1998
[4] 朱志刚. 数字图像处理. 北京:电子工业出版社,2001
[5] 岳晓峰, 焦圣喜, 韩立强等. 模式识别中的光字符识别技术及应用综述. 河北工业科技,2006,23(5):312-315
[6] 李春华, 秦志英. 一种基于 DCT 的图像灰度水印算法. 河北工业科技,2012:29(3):146-148
[7] 吴永亮, 万旺根, 钱锋等. 新的基于统计熵功率的 OCR 算法及其 DMCU 实现. 计算机工程与应用,2009,45(1):195-197
[8] 李红俊, 韩冀皖. 数字图像技术及其应用. 计算机测量与控制,2002,10(9):23-26
[9] Xiao. Qing. Ding, Li. Chen, Tao. Wu. Character independent font recognition on a single chinesecharacter. Pattern Analysis and Machine Intelligence,2007,29(2):195-204
[10] 夏良正, 李久贤. 数字图像处理. 福建:东南大学出版社,2005