一.概述
当今在发票,车票及门票上的数字均由喷码产生,由于受喷码时墨量和光照的影响,能产生多种变形,给我们的识别造成了很多难点.
图1
二 单台印刷机OCR识别系统描述
1.硬件系统
2.原理描述
A.切割和归一化
先对图像的文字部分进行横向和纵向切割,我们采用的是投影的方法,然后再对切割出来的部分,进行大小归一化,归一化的方法主要两种,一种是普通的大小缩放,我们采用的是另外的一种方法.我们先求出文字的质心.
B.特征的提取
我们分别提取了待识别字体的网格特征,水平和垂直方向的投影特征,以及字体的边缘特征,但是对于光照的差别比较大的情况,这些方法受到的影响是非常大的,因为在光照偏弱的情况下,象素点的个数明显减少,以及造成字体边缘的缺损。对于零这个字体。
为了避免由此带来的识别错误我们对先切出来的字体进行象素点比率的统计,假如当它小于一个特定的门限值得时候,对它实施开运算,大于门限值得时候进行闭运算。(c)为(a)图进行膨胀后的结果,(d)为(b)细化后的结果.对于所提取的特征值我们通过正规化相交的公式求得最后的分类器.
其中 为由字体算得特征相量, 是待识别字体算得相量。
然后根据这三个分类器通过简单投票法形成多分类器进行判别,即有两个或两个以上形成决策A,认为A是合法的。若每个分类器形成的决策是不多的,我们就选定公式3中算的最大值作为分类器决策。假设三种特征的识别正确率分别为p1,p2,p3.那么我们的方法在理论上能达到的正确识别率为
3、软件流程示意图
4、系统测试结果
运用上述的方法,在实际应用中对包括车票,发票等喷码印刷的票据进行识别,我们的算法能够给出正确的结果,2008年已经有客户将这一套系统应用于他们的票据识别机器上,到目前为止稳定性及可靠性等得到实际的认可。
三 结论
实际应用时,对我们的算法进行了一系列的测试和统计,发现正确的识别率一般在99.9%以上,但是现在最大的问题是由于喷码文字边缘的不规则性,这就造成了Q,0,O,D之间有着极大的相似性。对于这类相似文字,我们对识别结果又加了一些局部特征量的判断比如说内沿特征,来进一步提高识别率。