|
文献综述: |
|
随着信息技术的普及和应用,各个领域产生了大量的数据,这些数据被获取存储下来,其中蕴含着丰富的信息。人们持续不断的探索处理这些数据的方法,以期最大程度从中挖掘有用的信息,面对如潮水般不断增加的数据,人们不再满足于数据的查询与分析,而是期望从数据中提取信息或者知识为决策服务。数据挖掘技术突破了数据分析拘束的种种局限,它融入了数据库技术,人工智能,机器学习,统计学,知识工程,面向对象方法,信息检索,高性能计算以及数据可视化等最新技术的研究成果,辅助决策这一难题,是正在飞速发展的前言学科。经过十几年的研究,产生了许多新概念和新方法。特别是最近几年,一些基本概念和方法趋于清晰,她得研究正向着更深的方向发展。文献[1][2]系统介绍了数据挖掘原理,算法和应用的相关知识。主要包括数据挖掘过程,数据存储技术,数据预处理技术和算法,异常数据检测技术和算法,数据分类算法,数据聚类分析算法,数据关联分析算法,模型评估技术和算法,复杂数据类型的数据挖掘技术。文献[3][4]侧重数据挖掘中常用算法在工程应用中的实例和案例介绍数据挖掘的理念和算法,数据挖掘技术应用的流程和分析方法。 分类在数据挖掘中是一项非常重要的任务。分类的目的是学会一个分类函数或分类模型(分类器),该模型能把数据库中的数据项映射到给定类别的某一个类别,具有广泛的应用。常用的构造方法有统计方法,机器学习方法,神经网络方法等[2]。统计方法包括贝叶斯法和非参数法等。常见的临近学习方法或基于事例的学习(IBL)属于非参数方法。对应的知识表示则为判别判断函数和原型事例;机器学习方法包括决策树和规则归纳法。前者对应的表示为决策树或判别树,后者则有决策表(Decision List)和产生式规则等;神经网络方法的模型表示是前向反馈神经网络模型(有代表神经元的结点和代表连接权值的边组成的一种体系结构)。BP算法本质上是一种非线性判别函数[2]。文献[5]将Lasso方法加进LR(logistic regression)中实现基于文本和社交语境的微博数据情感分类以提高模型的鲁棒性。文献[6] 针对中文文本的情感倾向进行评估,基于自然语言理解的方法,通过句子中局部能表达情感倾向的词和评价对象组合成短语,以此来代替句子的语法结构,从中分析出其蕴含的语义。通过测试,在文本情感语义特征的抽取上,利用这些句中的短语基本上能表达出句子的情感倾向,并满足分类的要求,分析的时空效率较高,能达到实际应用的需求。基于情感倾向性判断的文本情感分类算法通过分析文本中的情感词以及由这些情感词构造的短语模式,作为文本的情感特征,并利用这些特征实现文本的情感判别。该算法改善了以往基于统计的情感判别算法因缺乏语义上的约束而在情感倾向判别上的不足。文献[6]提出的情感倾向算法主要包括情感词汇的选取、情感词词典的标识、句子结构分析和文本情感倾向值判断。算法通过分词、标注、抽取有效的短语、计算文本情感倾向值等步骤实现。 数据挖掘是在海量的数据中寻找模式或规则的过程。随着信息分布越来越广泛以及信息量的迅猛增加,传统的数据挖掘方法也难以胜任,因此分布式挖掘技术成为了人工智能与数据库领域的研究热点。一些学者按照“局部学习,总体结合”的思路研究了多种分布式数据挖掘算法,其不足之处在于各数据库之间缺乏相互联系,从而导致分析结果不太准确。近年来,在一些文献中提出了基于蚂蚁智能体的分布式数据挖掘方法[7~9]。 蚁群算法(ACO)最初由意大利学者Dorigo M于1991年首次提出,其本质上是一个复杂的智能系统,具有较强的鲁棒性,优良的分布式计算机制,易于与其他方法结合等特点[10]。1996年,Dorigo M等[12]不仅更加系统的阐述了蚁群算法的基本原则和数学模型,还将其与遗传算法,禁忌搜索算法,模拟退火算法,爬山法等进行了仿真实验比较,并把单纯地解决对称TSP扩展到解决非对称TSP,指派问题(QAP)以及车间作业调度问题(JSP),且对蚁群算法中初始化参数对其性能的影响做了初步探讨。Gutjahr W J于1999年撰写的技术报告[13]和2000年发表的学术论文[14]首次对蚁群算法的收敛性进行了证明。Gutjahr W J将蚁群算法的行为简化为在一副代表所求问题的有向图上的行走过程,进而从有向图论的角度对一种改进蚁群算法—图搜索蚂蚁系统(GBAS)的收敛性进行了理论分析,证明了在一些合理假设条件下他所提出的GBAS能以一定概率收敛到所求问题最优解。国内蚁群算法的众多研究这中,当时年仅17岁的高二学生陈烨[15]基于Visual Basic开发了一个功能齐全,界面友好的“蚁群算法实验室”。 作为对蚁群觅食行为抽象的蚁群算法,如果把算法本身看做一个整体,就会发现它有系统的特性。基本蚁群算法是一个系统,具有分布式计算,自组织,正反馈的特性。文献[11]将蚁群算法用于解决车辆路径问题,结果分析表明蚁群算法在解决多达50个结点的车辆路径问题上体现出很好的优越性,并推测在规模更大的问题上优越性更强。 目前人们对蚁群算法的研究已从当初单一的TSP领域渗透盗了多个应用领域。并由解决以为静态优化问题发展到解决多维动态组合优化问题,由离散域范围内研究逐渐扩展到连续域范围内研究,并且在蚁群算法硬件实现上取得突破性进展,同时在蚁群算法模型改进及与其他仿生优化算法的融合取得丰富的成果,使其成为一种完全可与遗传算法媲美的仿生优化算法。文献[7]首次提出基于蚁群优化的分类规则发现算法,实验结果表明:与决策树归纳分类方法相比,可以提高分类的准确率,产生更为简便的分类规则。文献[7]所提的算法数据源只有一个,蚂蚁智能体是一个接一个地构建一条规则。但在分布式环境下,存在多个数据源,需采用不同处理过程。 参考文献 [1]梁亚声,徐欣 ,等.数据挖掘原理,算法与应用[M].北京:机械工业出版社,2015. [2]毛国君 ,段丽娟.数据挖掘原理与算法(第3版)[M].北京:清华大学出版社,2016. [3]蒋盛益 ,张玉莎 ,王连喜.数据挖掘基础与应用实例[M].北京:经济科学出版社,2014. [4]郭琦 ,张达治.数据挖掘及其应用讲义[M].哈尔滨:哈尔滨工业大学出版社,2014. [5]吴方照,王丙坤,黄永峰.基于文本和社交语境的微博数据情感分类[A].北京:清华大学,2014 [6]宋光鹏.文本的情感倾向分析研究[D].北京:北京邮电大学,2008. [7]Parpinelli R S,Lopes H S,Freitas A A. Data mining with an ant colony optimization algorithm. IEEE Transactions on Evolutionary Computation,2002. [8]Tsia C F,Tsia C W,Wu H C,et al.ACODF:a novel data clustering approach for data mining in large databases. Journal of Systems and Software,2004 [9]Admane L,Benatchba K,Koudil M,et al.Using ant colonies to solve data-mining prolems.Proceedings of the 2004 IEEE Interational Conference on Systems,Man and Cybernetics,2004 [10]段海滨.蚁群算法原理及其应用[M].北京:科学出版社,2005. [11] Silvia Mazzeo, Irene Loiseau , et al. An Ant Colony Algorithm for the Capacitated Vehicle Routing.. Electronic Notes in Discrete Mathematics 18 (2004) 181–186 [12] Dorigo M,Maniezzo V,Colorni A.Ant system:optimization by a colony of cooperation agents.IEEE Transaction on Systems,Man,and Cybernetics-part B,1996 [13]Gutjahr W J.A generalized convergence result for the graph based ant system,Technical Report 99-09,Dept. of Statistics and Decision Support Systems,University of Vienna,Austria,1999 [14] Gutjahr W J.A graph-based ant system and its convergence.Future Generation Computer Systems,2000 [15]陈烨.带杂交算子的蚁群算法.计算机工程,2001 [16]刘波,潘久辉.基于群体智能的分布式数据挖掘方法.计算机工程,2005 [17] Marco Darigo ,Thomas Stutzle.蚁群优化[M].张军 ,胡晓敏 ,罗旭耀 ,等,译.北京:清华大学出版社,2007. |
