非接触图文快速扫描关键技术研究文献综述-论文综述网

文献综述（或调研报告）：

文档图像几何形变处理算法和纸张自主识别算法的研究现状

经过大量的查阅资料之后，笔者发现针对常见文档图像的形变有现成算法，绝大部分都是基于“文字行”的，所以对于图像中的文本检测也稍作介绍。而自动识别纸张的算法却没有，笔者发现对于证件照的批量剪裁算法，与纸张扫描物剪裁有相似度，但不直接相关，此处不加赘述。

下面就主要针对上述两种算法的研究现状进行介绍，对于变形处理算法，根据形变类型分别介绍；对于纸张识别，忽略其中边缘检的基础内容，只说明文本识别的相关算法：

1. 各类文档图像形变情况及相应的算法

倾斜形变处理算法：

关于倾斜形变处理的方法很多，但总的来说思路是一致的：首先找到图像倾斜的角度，然后把图像逆向旋转相应的角度。旋转是图像处理的基本操作，故算法的多样化在于找出倾斜角的方法上，主要有两种，基于霍夫变换的方法和轮廓投影法。霍夫变换方法是首先找到文本的基线，通过计算基线的平均倾斜角来对图像进行旋转矫正；轮廓投影法是对每个前景点按水平投影得到直方图进行分析，直方图轮廓与文本倾斜角有关，直方图峰古值之差最大的地方对应文本倾斜的角度。此外，对于含有边框信息的文本图像，则可利用边框为参考标注，直接得到倾斜角度。

透视形变处理算法：

资料中关于透视形变的理论阐述和算法描述最为完善，根据透视原理划分了一点透视，二点透视并分别给出相应算法，但从透视形变的成因上看，完全没必要划分这种类别，透视形变符合空间三维坐标变换特征，得到原图像与透视图像坐标变换的homogeneous 矩阵是关键。而矩阵的求解过程最终会变成双线性变换形式，即已知四点坐标求变换系数的形式，这样透视形变问题就变成四个参考点的选取问题。那么满足不共线的四点都是可行的，比如利用纸张边界顶点，文本构成矩形块的顶点等，此处不详细区别给种参考点以便算法设计能够适应各种情况。

扭曲形变处理算法：

针对扭曲变形的矫正方法主要有两大类：一是通过硬件辅助得到图像的三维数据，通过构建三维模型进行图像矫正；另一种不用硬件辅助，根据图像本身信息构建三维网格进行扭曲图像矫正。显然本课题研究对象在文档图像本身上，第一大类不做赘述。对图像本身处理的方法主要有两种，一是基于切分的算法，该算法首先找到文字的VSB（vertical stroke boundary，竖直笔画边界），文字上、下边界，以此边界构成小四边形进行矫正，对于小四边形校正仍采用（2）中的四点法；另一种是椭圆面模型法，在被拍摄文档中Y坐标相同的文字行会和图像中对应的文字行成线性比例关系。所以原图像中不同的文字行，有着不同的扭曲程度，这样就提供了文字复原的可能。基本思路是通过算法找到2条最佳拟合曲线，曲线与之误差比较，取其中最小值，作为标准重建模型，还原图像。

形变类型判别算法：

支线和曲线的多项式函数有明显差别，通过比较系数的差距，就可以判断出形变类型是倾斜，透视和扭曲中的哪一种。

。

1.2 纸张识别和剪裁算法

查阅文档并未得到自动识别纸张的直接算法，但是正如前面提到，笔者鉴于文本检测的方法研究却很丰富，假设“凡是具有矩形边框特征，并包含文本内容的”，都定义为纸张扫描物，如写有诸多且排列较为整齐的字的黑板，带文字的ppt页面等。这样关于纸张扫描物的检测算法也已经具备。那么问题就变成“矩形框里找文字”的算法问题了。矩形框利用边缘检测技术容易判别，并且所得边框即可作为裁剪依据，因而只剩文字检测和识别问题。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

非接触图文快速扫描关键技术研究文献综述

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章