基于Spark大数据平台的高校学生就业系统设计文献综述-论文综述网

研究背景及意义

如今大数据渗透到生活的方方面面，多行业由于历史积累产生了TB、PB甚至EB级数据量，由于传统机器的软硬件不足以支持如此庞大的数据量的存储、管理及分析能力，因而专门应对大数据的分布式处理技术应运而生，如高性能的Spark。Spark框架是一个针对超大数据集合的低延迟的集群分布式计算系统，启用了内存分布数据集，提供交互式查询并优化迭代工作负载，和Hadoop相比能更好地适用于机器学习和数据挖掘等需要迭代的MapReduce算法。

现代信息社会中,随着数据量的增大,对大规模数据集进行聚类分析并生成有用信息的需求也在不断增加。如今对于大规模数据的聚类分析主要有以下难点：第一,聚类对机器内存容量的需求超出了单一计算机的硬件能力;第二,聚类分析时间过长,效率无法得到提高。于是,对大规模数据上聚类算法的优化,可以归结为对数据规模的优化以及对算法在分布式平台上的优化。近年来,分布式计算平台Spark得到了广泛关注, Spark可以对于大规模数据进行内存上的迭代计算,使计算变得更加迅速,有着其它分布式平台无法比拟的优势。本文主要研究了基于Spark平台上特定的聚类分析算法的优化和实现；与此同时,对于聚类数据进行一定的预处理,可以在其不改变聚类效果的前提下减少数据规模,提高运行效率[1]。大数据具备数据量大、富于多样性的特点。因此在大数据分析方面,无论是对处理速度还是实时性都具有较高的要求。数据挖掘技术是从海量数据里采用某种建模算法,用来寻找隐藏在数据背后的信息,从而让大数据产生更大的价值[3]。

该研究的目的在于部署Spark环境，以其高速、易用、通用、支持多种资源管理器的优点，高效地处理庞大的高校学生就业信息数据，以构建出大型的、低延迟的高校学生就业系统。

该研究是对Spark大数据处理的落地应用，对高校学生就业这一可挖掘领域进行大数据的处理分析，能有效处理高校学生就业信息并提取有效信息，对高校学生就业情势提供高效系统和规律性总结。

国内外研究概况

Spark是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发通用内存并行计算框架。项目在2010年早些时候开源，很多早期关于Spark系统的思想在不同论文中发表。Matei Zaharia在他的博士论文中阐述了大型集群上的快速通用数据处理架构，为Spark技术奠基。

Spark在2013年6月进入Apache成为孵化项目，8个月后成为Apache较高级项目，Spark以其先进的设计理念，迅速成为社区的热门项目，围绕着Spark推出了Spark SQL、Spark Streaming、MLLib和GraphX等组件，也就是BDAS（伯克利数据分析栈），这些组件逐渐形成大数据处理一站式解决平台。2014年5月30日Spark 1.0.0版正式上线。截止到2015年，Spark官方维护运营公司Databricks已经组织并举办了三年Spark Summit技术峰会。

Spark平台被用于各种机器学习的场景之中，如Kmeans算法、并行FP-Growth算法、中心度加权算法、推荐算法等。

Spark的特色在于它首先为大数据应用提供了一个统一的平台。从数据处理层面看，模型可以分为批处理、交互式、流处理等多种方式；而从大数据平台而言，已有成熟的Hadoop、Cassandra、Mesos以及其他云的供应商。Spark整合了主要的数据处理模型，并能够很好地与现在主流的大数据平台集成。

三、存在问题

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

基于Spark大数据平台的高校学生就业系统设计文献综述

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章