{title}{title}
s
杭州国际服务工程学院教学部
文献综述基本要求
|
一、文献综述 含本选题国内外研究现状、研究主要成果、发展趋势、存在问题等内容,字数不少于3000字,力求内容切题,具综合归纳性 二、查阅中外文献资料目录 所查阅的中外文献资料不得少于15篇(其中至少2篇外文文献),含作者、书名或论文题目、出版社或刊名、出版年月或期号及页码等,未经本人查阅的文献资料目录不得列上 |
|
指导教师意见: 指导教师签名: 年 月 日 |
基于卷积神经网络的超市商品识别系统文献综述
- 国内外研究现状
1.国内的研究现状
深度学习在计算机视觉领域的应用能有效提高其识别精度,助力其实际落地,在各行业得以实现应用。在国内,目前有100多家计算机视觉企业,包括商汤科技、旷视科技、依图科技等独角兽公司,涉猎安防影像、身份认证、工业制造、医疗影像等众多应用领域。我国关于深度学习的研究属于后起之秀,并且大有追赶国际的势头。一些大型科技公司都开始涉足这个领域。
在商品识别方面,国内的研究机构,如南京理工大学梁青青等人于2013年开始研究货架商品的分割与识别。赵莹等人研究了基于人工特征商品图像匹配。国内越来越多的企业开始研究商品识别并期望应用于实体商店。但国内的技术实力相比国外还比较落后。阿里巴巴于2017年开始试验淘咖啡无人超市,配合人脸识别和支付宝来改善支付体验,在用户离店时会进入结算门进行商品的识别,识别完成并结算之后用户即可离店。但是进行商品识别检测时仍使用传统RFID技术,成本高,应用壁垒高。创业公司深兰科技于2018年1月推出智能售货小兰冰箱””,通过结合手掌静脉识别来进行支付,用户扫描手掌之后即可打开冰箱,并选取物品,冰箱通过视觉识别哪些物品被选取,用户关门之后即进行结算。旨在通过机器视觉全面淘汰RFID技术的无人货架。2018年4月,获得软银中国领投2.2亿融资创业公司码隆科技,发布了新零售纯视觉商品识别解决方法,目标是不仅要解决了运营商上货以及货物清点的复杂程序,使的消费者购物也只需完成开门、取物、关门的简单动作,使用人工智能技术使得成本低廉,同时提升用户体验效果,提高商家运营效率。
2.国外的研究现状
在深度学习的发展方面,20 世纪 60 年代,Hubel等人通过对猫的大脑视觉皮层研究发现,生物的视觉系统是通过多层次的感受野[14](Receptive Field)逐层激发实现的。对动物视觉机理的深入研究启发研究人员思考是否可以设计出类似的算法,赋予机器识别理解图像的能力,由此卷积神经网络(Convolutional Neural Networks,CNN)应运而生。20世纪80年代,Fukushima提出了第一个多层次的,神经网络模型 Neocognitron。20 世纪 90 年代,Lecun等在研究手写字识别问题上,构建了LeNet-5模型[8],该模型首次提出了使用梯度反向传播算法(Back Propgationalgorithm,BP)对卷积神经网络进行有监督训练。LeNet-5当时在 MNIST 数据集上取得最好的识别效果,其模型采用交替连接的卷积层和池化层[6],最后通过全连接层分类,确立了现代卷积神经网络的基础。缺乏大规模训练数据,又受限于理论基础和计算机计算能力,LeNet-5 在复杂图像上的识别结果并不理想。2006年,加拿大多伦多大学教授Hinton提出深度学习[11]的概念,并提出:多隐层神经网络具有更为优异的特征学习能力,并且其在训练上的复杂度可以通过逐层初始化来有效缓解。2011年,研究人员实现了在GPU上的卷积运算,从而大大提高了网络的计算能力,相比CPU运算速度提升了2~24倍。
2015年发表在《自然》杂志上一篇名为《Deep Learning》的文章正式将深度学习推向高潮。随后一大批高校和科研单位投入进深度学习的研究中,并且硕果累累,新的观点层出不穷。国际上有很多大公司在做深度学习方面的研究。谷歌、微软、苹果、亚马逊等公司都积极投入到深度学习的研究中,大多一方面做研究项目,如“谷歌大脑”发布的开源机器学习系统Tensorflow[16]。
在商品识别应用场景上,国外的研究机构如苏黎世理工大学George等人2011年研究货架商品识别问题。Pinterest是国外知名照片分享社交平台,2014年其收购图像识别科技初创公司VisualGraph,并推出图片搜索引擎,识别用户发布的图片,并根据图片在购物广告中查找相似商品,并为用户推荐购买,将用户流量引入购物广告平台,来实现盈利目的。2017年4月,谷歌公司也在其移动端网页版和安卓端App推出相似商品搜索功能,对用户需要搜索的图片进行识别,并给出相似商品的信息和购买链接。2016年,Amazon宣布其无人便利店项目准备问世,2018年1月22正式向公众开放。据悉,用户只需下载AmazonGo的App然后扫码进入商店,在商店内通过众多摄像头对人体进行分析,并通过货架上的传感器来识别商品是否被拿走,在用户购物的过程中进行分析识别,当用户走出商店自动进行结算。一个这种商店的布置成本大约是1000万美元,因为众多摄像头和传感器的造价,成本非常高昂。而实时跟踪计算的错误率和重叠率也相当高,无论从技术方案还是从经济角度来看,可行性都不高。这也是Amazon无人便利店迟迟未能向公众开放的原因。
(二)研究主要成果
20世纪 90年代,LeCun et al.等人发表论文,确立了CNN[10]的现代结构,后来又对其进行完善。他们设计了一种多层的人工神经网络,取名叫做LeNet-5,可以对手写数字做分类。和其他神经网络一样,LeNet-5 也能使用反响传播算法(backpropagation)训练。CNN能够得出原始图像的有效表征,这使得CNN能够直接从原始像素中,经过极少的预处理,识别视觉上面的规律。然而,由于当时缺乏大规模训练数据,计算机的计算能力也跟不上,LeNet-5对于复杂问题的处理结果并不理想。之后,人们设计了很多方法,想要克服难以训练深度CNN的困难。其中,最著名的是Krizhevsky et al.提出了一个经典的CNN结构,并在图像识别任务上取得了重大突破。其方法的整体框架叫做 AlexNet,与 LeNet-5类似,但层次结构上要更加深一些。同时使用了非线性激活函数ReLu与Dropout方法,取得了卓越的效果。AlexNet大获成功,掀起了卷积神经网络的研究热潮。在这之后,研究人员又提出了其他的改善方法,其中最著名的要数 ZFNet, VGGNet, GoogleNet和 ResNet这四种。从结构看,CNN发展的一个方向就是层数变得更多,ILSVRC 2015冠军 ResNet是 AlexNet的20多倍,是 VGGNet的8倍多。通过增加深度,网络便能够利用增加的非线性得出目标函数的近似结构,同时得出更好的特性表征。但是,这样做同时也增加了网络的整体复杂程度,使网络变得难以优化,很容易过拟合。研究人员提出了很多方法来解决这一问题。
自从深度神经网络算法首次在ImageNet数据集上大放异彩,物体检测领域逐渐开始利用深度学习来做研究。随后各种结构的深度模型被提出,数据集的准确率一再被刷新。实际上,深度学习模型在分类任务上将传统的方法远远地甩在身后。图像分类[4]上明显的提升也带动了检测领域的快速发展。到目前为止,高性能的检测算法都基于深度学习。最早的R-CNN(Region-based CNN)首次使用深度模型提取图像特征,以49.6%的准确率开创了检测算法的新时代。早期的物体检测,都以滑动窗口的方式生成目标建议框,这种方式本质上与穷举法无异。实际上,重复计算问题仍然没有得到解决。Fast R-CNN的出现正是为了解决冗余计算这个问题。Fast R-CNN添加了一个简化的SPP层,使得它的训练和测试过程能够合并在一起。
Fast R-CNN使用Selective Search来生成目标候选框,但是速度依然达不到实时的要求。Faster R-CNN则直接利用RPN(Region Proposal Networks)网络来生成目标候选框。RPN输入任意像素的原始图像,输出一批矩形区域,每个区域对应一个目标坐标信息和置信度。从R-CNN到Faster R-CNN[9],是一个合并的过程,它把传统检测的三个步骤整合到同一个深度网络模型中。基于回归算法的检测模型又将检测领域带到一个新的高度。其中以YOLO和SSD方法为代表的检测方法做到了真正意义上的实时效果。R-CNN到Faster R-CNN,再到SSD等是检测方法发展的主要轨迹。实际应用中还有许多特定物体的检测方法,如人脸检测、行人检测等。得益于深度学习理论研究的发展,产生了如Tensorflow这样的大规模机器学习系统。TensorFlow实际上是一个基于数据流[3]编程的符号数学系统,被广泛应用于各类机器学习算法的编程实现,其前身是谷歌的神经网络算法库DistBelief[15]。它被广泛用于计算机视觉方面,可以搭建快速、精准的图像分类器,尤其是一些初创公司当中使用的最多。而这些大规模机器学习系统的发布给市场应用带来了很多的商业机会。
(三)发展趋势
大数据时代的到来给人工智能的发展提供前所未有的机遇。在这个时代背景下,深度学习迅速发展。深度学习不是一个黑箱系统。它使用递归神经网络[1](Recurrent Neural Network, RNN)处理自然语言。它直接作用于原始数据,自动逐层进行整个过程直接优化某个目标函数。而传统机器学习往往被分解为几个不连贯的数据预是人工智能最重要的目标之一。尤其是在移动互联网时代,智能图像和视频数据暴增,造就了图像大数据时代。迄今为止,深度学习70%的研究都是关于图像识别的。2012年的ImageNet[4]竞赛开始,深度学习在图像识别领域发挥出巨大潜力,比如在通用图像分类、光学字符识别、人脸识别等领域的应用。图片分类和物体检测是图像识别的两个核心问题。前者定位图像中特定物体出现的区域并判定其类别。物体检测更加关注图像的局部区域和特定的物体类别集合,被视为更加复杂的计算。在未来,深度学习是科学研究和企业发展追逐的热点,而深度学习也才刚踏上发展的道路,还有很多问题等待解决。
在新零售背景下,随着图像采集设备制造成本的降低,以及计算设备性能的提高,深度学习的研究进展,极大的推进了基于视觉的物体识别的发展。基于图像的商品识别主要利用机器学习算法,而视频识别的精准度和效果都取得了质的飞跃。在当前计算机视觉领域深度学习算法是最受研究者推崇的方法。目前亚马逊员工内测的无人超市和已经投入运营的无人超市“缤果盒子”等都在研究使用视觉解决方案,希望通过技术升级来降低成本,提升顾客体验。而在我们身边的淘宝超市中的无人自助结算终端虽然可以使用“刷脸支付”等支付手段,一定程度上减少了人工通道的压力,但商品统计大部分依然使用扫描条形码的方式,结算过程缓慢。由此来看,利用图像视觉来识别物品,以此来解放生产力,提高自动化与智能化程度,已然成为目前人工智能领域的研究热点。
(四)存在的问题
总结来看,卷积神经网络在计算机视觉方面能取得成功主要依靠三大支柱:大数据、大模型、大计算。大量的人工标注数据使有监督训练成为可能,更深更大的模型提高了网络的识别能力,与 GPU 的结合和计算机硬件的迅速发展使大规模训练变得省时而有效。但真正对卷积神经网络的研究才刚刚起步,在很多应用场景中无法进行实际的应用。
深度学习在物体视觉方面较传统方法体现了巨大优势,但在空间视觉,如三维重建,物体定位方面,仍无法与基于几何的方法相媲美。这主要是因为深度学习很难处理图像特征之间的误匹配现象。在基于几何的三维重建中,RANSAC (Random Sample Consensus)等鲁棒外点[12](误匹配点)剔除模块可以反复调用,而在深度学习中,目前还很难集成诸如RANSAC等外点剔除机制。笔者认为,如果深度网络不能很好地集成外点剔除模块,深度学习在三维重建中将很难与基于几何的方法相媲美,甚至很难在空间视觉中得到有效应用。
目前,很多公司都依靠深度学习研发计算机视觉相关的产品,在一些方面取得了不错的成绩,比如车牌识别,人脸识别等方面。在新零售背景下,各大公司对计算机视觉方案的研发投入很多,但陷于技术的发展,很多项目都难以成功落地。在商品识别[5]方面,除了上述提到的误匹配现象,还有实时效果,精准度方面都有待提高。希望随着深度学习研究的进展,能出现更多可行新方案。
二、查阅中外文献资料目录
[1].李彦冬,郝宗波,雷航.卷积神经网络研究综述[J].计算机应用,2016,(9):2508-2515,2565.doi:10.11772/j.issn.1001-9081.2016.09.2508.
[2].章敏敏,徐和平,王晓洁,等. 谷歌TensorFlow机器学习框架及应用[J]. 微型机与应用,2017,(10):58-60.doi:10.19358/j.issn.1674-7720.2017.10.017.
[3].加日拉·买买提热衣木.TensorFlow的数据读取方式研究[J]. 数字通信世界,2018,(2).doi:10.3969/J.ISSN.1672-7274.2018.02.046.
[4].曹大有,胥帅. 基于TensorFlow预训练模型快速、精准的图像分类器[J]. 汉江师范学院学报,2017,(3):27-32.doi:10.19575/j.cnki.cn42-1892/g4.2017.03.006.
[5].丁明宇,牛玉磊,卢志武,文继荣. 基于深度学习的图片中商品参数识别方法[J]. 软件学报,2018,(4):1039-1048.doi:10.13328/j.cnki.jos.005408.
[6].周飞燕,金林鹏,董军. 卷积神经网络研究综述[J]. 计算机学报. 2017(06)
[7].尹宝才,王文通,王立春. 深度学习研究综述[J]. 北京工业大学学报,2015,(1):48-59.doi:10.11936/bjutxb2014100026.
[8].黄斌,卢金金,王建华,吴星明,陈伟海.基于深度卷积神经网络的物体识别算法[J].计算机应用,2016,36(12): 3333-3340.DOI:10.11772/j.issn.1001-9081.2016.12.3333.
[9].袁文翠,孔雪.基于TensorFlow深度学习框架的卷积神经网络研究[J]. 微型电脑应用,2018,(2).
[10].卢宏涛,张秦川.深度卷积神经网络在计算机视觉中的应用研究综述[J]. 数据采集与处理,2016,(1).doi:10.16337/j.1004-9037.2016.01.001.
[11].郭济民. 基于深度神经网络的物体识别方法研究及实现[D]. 电子科技大学 2018
[12].胡长雨. 基于卷积神经网络的目标检测算法研究[D]. 哈尔滨理工大学 2017
[13].李河伟. 一种移动式TensorFlow平台的卷积神经网络设计方法[J]. 电脑知识与技术. 2017(22)
[14].Deep learning in neural networks, by Juergen Schmidhuber (2015)
[15].TensorFlow: a system for large-scale machine learning, by Martiacute;n A., Paul B., Jianmin C., Zhifeng C., Andy D. et al. (2016)
[16].TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems, by Martiacute;n A., Ashish A. B., Eugene B. C., et al. (2015)
检查:第二个数字必须与前一数字一致。
PS:本文档定稿上传系统时请删除本标注框!
资料编号:[276366]
s
杭州国际服务工程学院教学部
文献综述基本要求
