基于WEB的数据挖掘的研究与应用文献综述

 2022-11-21 16:06:53

文献综述(或调研报告):

Web数据挖掘的研究现状和最新进展

从Internet的广泛应用到现今Web技术的发展,数据挖掘研究进入了一个新的发展阶段。数据库中的知识发现(Knowledge Discovery in Database,以下简称KDD)自1989年第一次出现在国际性的学术会议上到现在,越来越多的公司开始深入研究这一领域,并且将研究的重点从方法的探究转为了实际的数据挖掘系统的运用。国际上在这个领域有较大影响的有IBM公司的Intelligent Miner,SAS公司的Enterprise Miner,SGI公司的Set Miner等。

美国人工智能协会主办的关于KDD的国际性的研讨会,到现在为止,已经举行了8次,而在这两年,国内也有非常多关于数据挖掘的研究成果,并且还常常设有专题来进行学术交流。

Web数据挖掘的技术

现今的数据挖掘技术,主要有五个大类:预测模型化、聚类、数据归纳、依赖模型化及发现变化和偏差。但从国内外的研究情况看来,在这方面的研究上,最大的问题是各个学科的研究相对独立,没有融合各个领域的不同方法,没有将并行优化的多种方法集成后,再运用于数据挖掘,集成的方法可以实现智能数据挖掘,提高实时性。

Web数据挖掘的方法。

数据挖掘所涉及的学科和方法较多,不同的分类方法可以得出不同的分类结果:

1.按挖掘对象分:关系数据库、面向对象数据库、空间数据库、时序数据库、DNA数据库、多媒体数据库、异质数据库、遗产数据库及Web数据库等;

2. 按挖掘方法分:机器学习方法、统计方法、神经网络方法和数据库方法等;

机器学习方法细分为:归纳学习方法(决策树、规律归纳等)、基于返利学习、遗传算法等。
统计方法细分为:回归分析(多元回归、自回归等)、探索性分析(主元分析法、相关分析法等)等。
神经网络方法细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。

3.根据开采任务分:关联规则、分类、聚类、时间预测模型发现和时序模式发现等。

关联规则:关联规则是KDD研究中的一个重要分支,典型的关联规则发现算法是Apriori算法,该算法也称广度优先算法。是A.Agrawal和R.Srikandt于1994年提出的,他是目前除AIS算法、面向SQL的SETM算法外几乎所有频繁项集发现算法的核心,其基本思想是:如果一个项集不是频繁集,则其父集也不是频繁集。由此大大的减少了需要验证的项集的数目。在实际运行中它明显优于AIS算法。
Apriori算法是关联规则挖掘中最具有影响的一种算法。所谓关联规则就是从事务数据库、关系数据库和其他数据库存储中的大量数据的项集之间发现有趣的频繁出现的模式、关联和相关性。关联规则可以分为两步:
找出所有频繁项集。这部分主要由后面介绍的Apriori算法来解决。
由频繁项集产生相关联规则:这些规则必须满足最小支持度好最小置信度。
分类规则:数据挖掘的一个重要任务是对海量数据进行分类。数据分类是基于一组数据的某些属性的值进行的。数据分类的方法很多,包括决策树方法、统计学方法、神经网络方法、最近邻居方法等。其中决策树的分类方法与其他的分类方法比较起来,具有速度较快、较容易转换成简单的并且易于被理解的分类规则、较易转化成数据库查询语言、友善、可得到更高的准确度等优点。
数据聚类:其基本思想是对数据进行分析的过程中,在考虑数据间的“距离”的同时,更侧重考虑某县数据间具有类的共同内涵。数据聚类是对一组数据进行分组,这种分组基于如下的原理:最大的组内相似性与最小的组间相似性。
时序模式:可用如下的例子描述时序模式:一件事件的发生会导致某些事物的相继发生的事件模式,称为时序模式。
相似模式:时态或空间-时态的大量数据存在于计算机中,这些数据库例子包括:股票价格指数的金融数据库、医疗数据库、多媒体数据库等等。在时态或空间-时态数据中搜索相似模式的目的是发现和预测风险、因果关系与特定模式的趋势。

4.Web数据挖掘工具

在数据挖掘技术日益发展的同时,许多数据挖掘的软件工具也渐渐面世。通用的数据挖掘工具有,IBM公司Almaden研究中心研发的QUEST系统,SGI公司开发的MineSet系统,加拿大SimonFraser大学开发的DBMiner系统。还有一些特定领域的挖掘工具,例如帮助教练优化战术组合、帮助人文学家发现遥远的类星体等的挖掘工具。这些挖掘工具的对象主要都是针对结构化的数据进行分析出了,下面主要说几种适用于Web数据挖掘的工具。

文本信息挖掘工具

通常情况下,文本挖掘工具主要完成两方面的工作:信息检索和对文本的分析。文本挖掘工具的主要设计目标是使用户用于理解文档内容或收集相关文档所花费的时间最少。IBM公司退出的Web文本挖掘工具Intelligent Miner for Text,它是IBM开发的Intelligent Miner家族的成员之一。该软件主要是由信息提取器工具组成,该工具提供了高效的文本信息挖掘,可以实现全文搜索、文本分析、Web文档查询和检索。

用户访问模式挖掘工具

由Stephen Turner博士编制的免费个人软件Analog,是一个用来分析服务器日志文件的工具,它适用于Windows及U-NIX等操作系统中,由于其使用较简单,可以直接在服务器上运行,也可以将日志文件下载到客户端,在客户端运行。比较适用于个人和小规模分析应用,是一个实用性很强的日志文件分析工具。

用户导航行为挖掘工具WUM(Web Utilization Miner)是一种序列挖掘器。它主要用来分析用户导航行为的发现,它适用于从任何类型的日志文件中发现用户导航信息。WUM是一个对日志文件进行集成处理、查询、分析的工具,它的核心是MINT处理器,主要是对从日志文件中提取的集成信息进行分析,从而发现导航模式。

参考文献:

[1] Dhond A, Gupta A, Vadhavkar S. Data mining techniques for optimizing inventories for electronic commerce[C]//Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2000: 480-486.

[2] 张承明. 基于 Web 的数据挖掘研究[D]. 山东: 山东科技大学, 2003.

[3] 任明枢. Web 数据挖掘及其在电子商务中的应用[D]. 山东科技大学, 2004.

[4] 蔺莉, 潘浩. Web 数据挖掘技术在电子商务中的应用[J]. 电脑知识与技术: 学术交流, 2010 (2): 816-818.

[5] 谢丹夏. Web 上的数据挖掘技术和工具设计[J]. 计算机工程与应用, 2001, 6: 85-87.

[6] q 冯艳, 王坚强. 数据挖掘技术在电子商务上的应用[J]. 湖南商学院学报, 2002, 9(2): 125-126.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版