情感分析或意见挖掘是人们的观点,情绪,评估对诸如产品,服务,组织等实体的态度。该领域的发展和快速起步得益于网络上的社交媒体,例如twitter、facebook与Instagram的快速发展,因为这是人类历史上第一次有如此巨大数字量的形式记录。自2000年初以来,情感分析已经成长为自然语言处理(NLP)中最活跃的研究领域之一,也是在数据挖掘,Web挖掘,文本挖掘和信息检索方面有广泛的研究。
多模态学习[16]从1970年代起步,经历了行为时代,计算时代,交互时代,在2010后全面步入深度学习时代。多模态学习可以划分为以下五个研究方向:多模态表示学习(Multimodal Representations)是指通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示;转化(Translation)也称为映射,负责将一个模态的信息转换为另一个模态的信息;多模态的对齐(Alignment)负责对来自同一个实例的不同模态信息的子分支/元素寻找对应关系这个对应关系可以是时间维度的亦或空间维度的;多模态融(Multimodal Fusion)负责联合多个模态的信息,进行目标预测(分类或者回归);协同学习(Co-learning)是指使用一个资源丰富的模态信息来辅助另一个资源相对贫瘠的模态进行学习。
而随着社交网络的快速发展,人们在平台上的表达方式变得越来越丰富,如通过图文和视频表达自己的情绪和观点。如何分析多模态数据(例如声音,图像和文字)中的情感,是当前情感分析领域面临的机遇和挑战。
一方面,以往情感分析聚焦于单个模态。如文本情感分析着眼于分析,挖掘和推理文本中蕴含的情感。现在需要对多个模态的数据进行处理和分析,这给研究人员带来了更大的挑战。另一方面,多模态数据与单模态数据相比,包含了更多的信息,多个模态之间可以互相补充。不同模态信息相互补充,可以帮助机器更好地理解情感。机器可以基于图像中人的表情和手势,图像中的环境,声音中的音调,和识别出的自然语言来理解用户情感,进而进行反馈。
目标依赖情感分类(TSC)是情感分析中的一项重要任务,其目的是识别句子中每个意见目标的情感极性。传统的方法主要集中在通过对目标实体进行线性分类。例如[3]中通过将给定的目标分为左上下文和右上下文,使用分布式单词表示和神经池函数来提取特征,使用了情感驱动和标准嵌入,并探索了一组丰富的神经池函数,情感词汇被用作特征提取的额外信息来源。其证明了不使用语法(例如自动解析树automatic parse trees),通过提取一组丰富的自动特征,同样可以取得具有竞争力的结果。[4]中建立了一个实体/事件层面的情绪分析系统,通过设计了一个概率软逻辑模型(PSL,Probabilistic soft logic),集成了明确的情感、推理规则和积极/消极效果事件信息,以识别和推断出文本中对实体和事件的显性和隐性情绪。尽管在不同的基准数据集上取得了令人满意的结果,但它们严重依赖于特征工程([5] [6])。
随着深度学习在NLP中的广泛运用,许多最近的研究受注意力机制在获取其他NLP任务中的远程上下文信息方面的优势启发,设计了不同的注意力机制来对目标实体和上下文之间的交互作用建模([11] [12])。不同的神经网络结构也都提出了实体级的情感分类,例如递归神经网络(ReNNs)([7]),卷积神经网络(CNNs) ([8]),循环神经网络(RNNs) ([9])。最近,为了更好地捕捉上下文单词和目标实体之间的语义交互,很多研究试图采用基于RNNs的许多注意力机制,RNNs已经被证明在大多数基准数据集中达到了最先进的结果([14])。
然而,现有的实现此任务的方法主要依赖于文本内容,而忽略了其他多模态数据源。随着多模态数据的日益流行,社交媒体平台,实体级情感分类不应该再基于文本内容,来自不同模态(视觉、听觉等)的信息近年来被用来为传统的文本特征提供互补的情感信号。例如[12]中,Bertero等人的代表性研究提出了一种分级CNN方法,该方法首先进行语音识别,然后在交互式语音对话系统中对每个话语的情感和情绪进行分类,该工作只侧重于将相应的声学信息与文本特征进行整合。而在 [13]中,Poria等人在早期的研究中,首先使用了一个预先训练好的CNN模型来提取文本特征,然后利用多核学习融合文本、视觉和听觉特征来预测最后一句话的情绪。他们提出了一个基于LSTM的体系结构来捕获历史会话信息的顺序结构来扩展这项工作。在此基础上,[15]中Zadeh等人分别设计了一个张量融合网络和一个记忆融合网络,以更好地捕捉每个历史话语的不同方式之间的相互作用。
[2]中研究了面向目标的多模态情绪分类(TMSC),并提出了一个多模态的BERT架构。为了模拟模态内的动态,其首先应用BERT来获得目标情感的文本表示,然后设计了目标注意机制来进行目标-图像匹配以获得目标情感的视觉表表示,再进一步提出将一组自注意力层叠加起来以捕获多模态的交互。实验结果表明,该模型可以胜过几个有竞争力的TSC和TMSC方法。
多模态情感分类技术的发展源于实际生活的需求,人们以更加自然的方式表达情感,技术就应有能力进行智能的理解和分析。虽然多模态数据包含了更多的信息,但如何进行多模态数据的融合,使得利用多模态数据能够提升效果,而不是起了反作用。如何处理和分析多模态信息、如何融合不同模态的信息是当今多模态情感分类领域需要解决的主要问题。
参考文献
