基于关联规则的多标记学习分类文献综述

 2022-11-10 14:01:13

文献综述:

概述:

在Web2.0时代的主流网络社交平台中,微博已经成为广大互联网用户最为喜爱的社交工具之一。在以速度和效率为标准的信息时代,微博不仅为网络用户提供了跨越时间和距离的即时通讯互动平台,也能够使人们更加方便地点评时事与表达自己的情感。目前国内中文微博的情感分析研究尚处于起步阶段,还有大量的问题需要深入讨论研究。本课题将微博划分为无情感、愤怒、厌恶、恐惧、快乐、喜好、悲伤和惊讶等8类情感为研究目标[1],并将这8类情感作为多标记学习中的标记,运用Apriori[2][3]和Eclat[4]算法寻找各个标记之间的相关性,进而找到标记之间的关联规则。在标记过程中,将具有强关联依赖关系的复杂标记用依赖关系中的单标记表示,然后用多标记学习算法对多标记数据进行分类。在最后的标记预测阶段,再根据强关联规则关系填补上复杂标记[5]

主题:

由于微博用户众多,用户所表达的观点以及价值观各不相同,此外,用户发表的微博情感有时候不局限于单种情感,尽可能地挖掘微博所涵盖的多种情感,分析用户潜在心理信息,不仅能为企业提供用户消费观念,还可为政府改善方针政策提出重要参考信息。在此,我们基于多标记的框架,对中文微博文本情感进行分类,可提高情感分类准确率。

在多标记学习框架中,每个对象是由一个示例描述并且有多个类别标记。而在传统的单标记学习框架中,每个样本由一个实例表示,事物往往具有多方面特征,用单示例表示弱化了事物的特征,不利于判断。例如,在文档分类问题中[6],每篇文档可能属于多个预定义的主题,在图片分类中[7],可能含有不同的语义。多标记学习的提出能够有效解决事物特征判断问题,其目标是通过学习给定的多标记训练机有效地预测样本所属的类别标记集合。

在多标记学习运用在微博话题情感中,每个微博样本可能同时隶属于多个情感类别,情感标记之间的关联信息会为多标记的学习提供更多有用信息。

我们可将微博文本多标记问题可以描述如下:设样本的标记集合,样本的微博文本集合,在给定学习示例集合的情况下:构造自动分类器H,能对未知微博文本样本进行情感标记:[8]。多标记学习算法在大多数情况下可能会忽略标记之间的关系[9],实际上,对于某个标记来说,如果充分利用其他相关的标记信息,可能更有利于其学习,尤其是当没有足够的训练样本时,标记之间的相关性可提供额外的有用信息[10]。关联规则为我们提供了标记之间的有趣关系,这种有趣关系能够完善微博文本情感分类。 关联规则[11]是形如X→Y的蕴涵式,其中, X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(conse -quent或right-hand-side, RHS) 。在本文中,X与Y对应的是情感标签。其中,关联规则X→Y,存在支持度(support)和置信度(confidence),它们是规则兴趣度的两种度量,分别反映所发现规则的有用性和确定性。在典型情况下,如果关联规则满足最小支持度阈值和最小置信度阈值,则被认为是有趣的。这些阙值可以由用户或领域专家设定,还可以进行其他分析,揭示关联项之间有趣的统计相关性。

假设有规则,则支持度与置信度可由下列公式计算出:

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版