基于深度学习的看图问答算法及实现文献综述

 2022-09-25 16:17:49

文献综述(或调研报告):

文献[1]讲述了著名的AlexNet网络,该分类网络拥有六千万的参数以及65万个神经元,共五个卷积层,其中一些卷积层后面跟着最大池化层,并且网络利用softmax函数实现了1000类分类的最后三个全连接层。同时为了使训练速度更快,利用高效的GPU实现卷积操作;为减少过拟合,采用了Dropout的正则化方法。作者通过该模型的变体在ILSVRC-2012的竞赛中取得了优异的成绩。通过研究该文章有助我去理解什么是卷积神经网络。

文献[2]讲解了著名的ResNet,作者通过实验发现随着网络的加深,出现了训练集准确率下降的现象,并确定这不是由于Overfit过拟合造成的(过拟合的情况训练集应该准确率很高),所以作者针对这个问题提出了一种全新的网络,叫深度残差网络,它允许网络尽可能的加深,其中引入了全新的结构。在ImageNet比赛classification任务上获得第一名,因为它“简单与实用”并存,之后很多方法都建立在ResNet50或者ResNet101的基础上完成的,检测,分割,识别等领域都纷纷使用ResNet,Alpha zero也使用了ResNet,所以可见ResNet确实很好用,我计划采用这种网络完成项目中图片特征的提取。

文献[3]研究了深度递归神经网络,它将深度网络中证明非常有效的多层次表示与灵活使用赋予RNN的远程上下文相结合。由于前两篇文章都是在看CNN,突然接触RNN有些不理解,但本文给我用公式和图像生动的解释了一般RNN的工作原理以及LSTM网络的工作原理,LSTM网络很好的解决了在使用一般RNN时输入序列过长引起的梯度弥散问题。这篇文章也让我对循环神经网络处理文字序列有了一定的理解。

文献[4]提出了自由形式和开放式视觉回答问题(VQA)的任务。给定关于图像的图像和自然语言问题,任务是提供准确的自然语言答案。文章提供了一个包含0.25M图像,0.76M问题和10M答案的数据集,并讨论它提供的信息。提供了许多VQA基准并与人类表现进行了比较。作者将建立一个评估服务器,组织年度挑战和相关的研讨会,以促进系统的进步。通过本文我对我要研究实现的问题VQA有了基本了解,同时也知道了本文提供了目前最大的数据集MSCOCO。

文献[5]中作者提出了这样一个猜想:多模型向量的外积可以表达多模型向量的交互信息。因为传统的向量结合方式都是针对单个元素的,向量外积的方式是对两个向量之间所有元素的乘法操作。但是双线性模型计算向量外积的过程中,产生的向量维数太大,计算量太大,所以双线性模型计算外积的方式并没有被广泛采用。作者因为想要改进VQA模型中视觉向量和问题向量的融合方式,提出了外积这个想法,成功地将之前的cbp(compact biliniaer pooling)模型改进后应用到模型融合的过程中,这种解决问题的思路值得我们参考和学习。本文还有一个创新点就是应用了soft attention。并且使用的了两层attention maps,对MCB后的联合向量去求attention weight后对关注的视觉向量。

文献[6]在文章中介绍了VQA任务的MUTAN策略,主要贡献是使用双线性框架在视觉和文本信息之间进行多模式融合。作者模型将Tucker分解与低秩矩阵约束相结合。它旨在控制完整的双线性交互的复杂性。MUTAN将交互张量分解为可解释的元素,并允许轻松控制模型的表达性。文中还展示了Tucker分解框架如何概括最具竞争力的VQA架构。MUTANT在最新的VQA数据集上进行评估,达到最先进技术水平。

[1] Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton, Imagenet classification with deep convolutional neural networks, NIPS, 2012

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版