文献综述(或调研报告):
- 文档图像几何形变处理算法和纸张自主识别算法的研究现状
经过大量的查阅资料之后,笔者发现针对常见文档图像的形变有现成算法,绝大部分都是基于“文字行”的,所以对于图像中的文本检测也稍作介绍。而自动识别纸张的算法却没有,笔者发现对于证件照的批量剪裁算法,与纸张扫描物剪裁有相似度,但不直接相关,此处不加赘述。
下面就主要针对上述两种算法的研究现状进行介绍,对于变形处理算法,根据形变类型分别介绍;对于纸张识别,忽略其中边缘检的基础内容,只说明文本识别的相关算法:
-
- 各类文档图像形变情况及相应的算法
- 倾斜形变处理算法:
关于倾斜形变处理的方法很多,但总的来说思路是一致的:首先找到图像倾斜的角度,然后把图像逆向旋转相应的角度。旋转是图像处理的基本操作,故算法的多样化在于找出倾斜角的方法上,主要有两种,基于霍夫变换的方法和轮廓投影法。霍夫变换方法是首先找到文本的基线,通过计算基线的平均倾斜角来对图像进行旋转矫正;轮廓投影法是对每个前景点按水平投影得到直方图进行分析,直方图轮廓与文本倾斜角有关,直方图峰古值之差最大的地方对应文本倾斜的角度。此外,对于含有边框信息的文本图像,则可利用边框为参考标注,直接得到倾斜角度。
- 透视形变处理算法:
资料中关于透视形变的理论阐述和算法描述最为完善,根据透视原理划分了一点透视,二点透视并分别给出相应算法,但从透视形变的成因上看,完全没必要划分这种类别,透视形变符合空间三维坐标变换特征,得到原图像与透视图像坐标变换的homogeneous 矩阵是关键。而矩阵的求解过程最终会变成双线性变换形式,即已知四点坐标求变换系数的形式,这样透视形变问题就变成四个参考点的选取问题。那么满足不共线的四点都是可行的,比如利用纸张边界顶点,文本构成矩形块的顶点等,此处不详细区别给种参考点以便算法设计能够适应各种情况。
- 扭曲形变处理算法:
针对扭曲变形的矫正方法主要有两大类:一是通过硬件辅助得到图像的三维数据,通过构建三维模型进行图像矫正;另一种不用硬件辅助,根据图像本身信息构建三维网格进行扭曲图像矫正。显然本课题研究对象在文档图像本身上,第一大类不做赘述。对图像本身处理的方法主要有两种,一是基于切分的算法,该算法首先找到文字的VSB(vertical stroke boundary,竖直笔画边界),文字上、下边界,以此边界构成小四边形进行矫正,对于小四边形校正仍采用(2)中的四点法;另一种是椭圆面模型法,在被拍摄文档中Y坐标相同的文字行会和图像中对应的文字行成线性比例关系。所以原图像中不同的文字行,有着不同的扭曲程度,这样就提供了文字复原的可能。基本思路是通过算法找到2条最佳拟合曲线,曲线与之误差比较,取其中最小值,作为标准重建模型,还原图像。
- 形变类型判别算法:
支线和曲线的多项式函数有明显差别,通过比较系数的差距,就可以判断出形变类型是倾斜,透视和扭曲中的哪一种。
。
1.2 纸张识别和剪裁算法
查阅文档并未得到自动识别纸张的直接算法,但是正如前面提到,笔者鉴于文本检测的方法研究却很丰富,假设“凡是具有矩形边框特征,并包含文本内容的”,都定义为纸张扫描物,如写有诸多且排列较为整齐的字的黑板,带文字的ppt页面等。这样关于纸张扫描物的检测算法也已经具备。那么问题就变成“矩形框里找文字”的算法问题了。矩形框利用边缘检测技术容易判别,并且所得边框即可作为裁剪依据,因而只剩文字检测和识别问题。
