数据挖掘中分类算法关于准确性、速度性与鲁棒性的比较分析
摘要:随着数据的快速发展,为高效解决好分类问题,试图找到不同分类算法的适用环境及其优势和不足,本文首先选用了涉及社会、商业、经济领域的三个具有不同实例数、缺失值个数的具有一定代表性的实验案例,然后建立起了决策树、支持向量机、朴素贝叶斯三种分类算法的模型,最后从分类结果准确率、分类算法稳定性、分类算法可得结果的解释性、分类器运行速度等方面对上述三种算法进行了比较与分析,并的处理三种算法应用于不同特点数据集时的优点与不足。
关键词:数据挖掘;决策树;支持向量机;朴素贝叶斯算法
- 文献综述
- 数据挖掘
数据挖掘是一种模式发现的过程。数据库知识发现(Knowledge Discovery in Databases,KDD)和数据挖掘(Data Mining)是数据库领域重要的研究课题,这两者通常被认为可以相提并论的,目前对于数据挖掘的研究主要包括数据挖掘理论研究和数据挖掘应用研究。 数据挖掘的理论研究主要集中在数据处理方法和机器学习算法的研究。
数据处理方法包括:非均衡数据处理(正负样本分布不均衡);数据清洗(数据缺失等);数据简化(选取有用的数据);数据集成(不同数据的合并);数据变换(将不同格式的数据统一);异常检测(检测原始数据中的异常数据)等。这是在进行数据挖掘前对数据进行的预处理,以建立更加准确的数据挖掘系统。
对于机器学习算法,国外的研究历史相对久远些。早在 1950 年,图灵在关于图灵测试的文章中就提出了机器学习的可能。目前对于机器学习的研究主要包括以下几个方面:
1. 经典机器学习算法的改进:包括算法的原理的改进和算法实现的改进,算法
原理增加了新的内容,算法实现方式的并行化和分布式化。
