- 研究背景及意义
如今大数据渗透到生活的方方面面,多行业由于历史积累产生了TB、PB甚至EB级数据量,由于传统机器的软硬件不足以支持如此庞大的数据量的存储、管理及分析能力,因而专门应对大数据的分布式处理技术应运而生,如高性能的Spark。Spark框架是一个针对超大数据集合的低延迟的集群分布式计算系统,启用了内存分布数据集,提供交互式查询并优化迭代工作负载,和Hadoop相比能更好地适用于机器学习和数据挖掘等需要迭代的MapReduce算法。
现代信息社会中,随着数据量的增大,对大规模数据集进行聚类分析并生成有用信息的需求也在不断增加。如今对于大规模数据的聚类分析主要有以下难点:第一,聚类对机器内存容量的需求超出了单一计算机的硬件能力;第二,聚类分析时间过长,效率无法得到提高。于是,对大规模数据上聚类算法的优化,可以归结为对数据规模的优化以及对算法在分布式平台上的优化。近年来,分布式计算平台Spark得到了广泛关注, Spark可以对于大规模数据进行内存上的迭代计算,使计算变得更加迅速,有着其它分布式平台无法比拟的优势。本文主要研究了基于Spark平台上特定的聚类分析算法的优化和实现;与此同时,对于聚类数据进行一定的预处理,可以在其不改变聚类效果的前提下减少数据规模,提高运行效率[1]。大数据具备数据量大、富于多样性的特点。因此在大数据分析方面,无论是对处理速度还是实时性都具有较高的要求。数据挖掘技术是从海量数据里采用某种建模算法,用来寻找隐藏在数据背后的信息,从而让大数据产生更大的价值[3]。
该研究的目的在于部署Spark环境,以其高速、易用、通用、支持多种资源管理器的优点,高效地处理庞大的高校学生就业信息数据,以构建出大型的、低延迟的高校学生就业系统。
该研究是对Spark大数据处理的落地应用,对高校学生就业这一可挖掘领域进行大数据的处理分析,能有效处理高校学生就业信息并提取有效信息,对高校学生就业情势提供高效系统和规律性总结。
- 国内外研究概况
Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架。项目在2010年早些时候开源,很多早期关于Spark系统的思想在不同论文中发表。Matei Zaharia在他的博士论文中阐述了大型集群上的快速通用数据处理架构,为Spark技术奠基。
Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache较高级项目,Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出了Spark SQL、Spark Streaming、MLLib和GraphX等组件,也就是BDAS(伯克利数据分析栈),这些组件逐渐形成大数据处理一站式解决平台。2014年5月30日Spark 1.0.0版正式上线。截止到2015年,Spark官方维护运营公司Databricks已经组织并举办了三年Spark Summit技术峰会。
Spark平台被用于各种机器学习的场景之中,如Kmeans算法、并行FP-Growth算法、中心度加权算法、推荐算法等。
Spark的特色在于它首先为大数据应用提供了一个统一的平台。从数据处理层面看,模型可以分为批处理、交互式、流处理等多种方式;而从大数据平台而言,已有成熟的Hadoop、Cassandra、Mesos以及其他云的供应商。Spark整合了主要的数据处理模型,并能够很好地与现在主流的大数据平台集成。
三、存在问题
