文 献 综 述
【摘要】随着信息技术的飞速发展,数据的产生和存储达到了空前繁荣的阶段,与此同时,如何从海量的数据中提取潜在的有用信息,给传统的数据挖掘技术带来了严峻的考验,基于云计算的数据挖掘的方法也应运而生。Hadoop 是云计算技术的一个开源平台,其核心技术主要是 Hadoop 分布式文件系统(HDFS)和 MapReduce 编程模型,其中,HDFS 存储文件,MapReduce 编程模型实现并行计算。由于利用 Hadoop 框架可以方便、快速地实现计算机集群,能够处理大型数据集,因此,将传统的数据挖掘方法部署到 Hadoop 平台具有实际的研究意义。
【关键词】 云计算;文本挖掘;Hadoop;可视化
1 引言
人类社会的数据产生方式主要有3种:一是运营数据,伴随着各类组织的运营而被动产生;二是感知数据, 由遍布世界各个角落的传感器等设备监测社会运行和环境变化
而自动产生;三是人类原创数据, 由人单独创作和人际互动而主动产生。其中, 人类原创数据在互联网环境下产生了爆发式增长, 形成了庞大的网络数据资源, 而其中有相当一部分是由个人和各种社会群体, 对自己关心或与自身利益紧密相关的各种公共事务所持有的情绪、意愿、态度和意见, 也就是网络舆情。对当前网络舆情状况的观察可以看出, 互联网的开放性使数量庞大的网民和各种社会群体可以在网上方便快捷地发表观点, 这使得网络舆情的数据量急速增长。 其次, 多媒体的发展使网络舆情的数据形态既有文本, 又有图片、 音频、 视频等, 呈现出多样性特征。再次 , 现代社会价值观念多元, 各种观点交流交融交锋, 舆论多元多样多变, 网络舆情变化快速。 各种因素共同作用, 使得网络舆情数据越来越呈现出大数据特征:规模性 ( Volume) 、 多样性 ( Variety)、 变化快速性( Velocity)和价值 ( Value)。
2 Hadoop
Hadoop 核心包括了 Hadoop 分布式文件存储和分布式任务管理两部分,即 HDFS 和MapReduce,其中,HDFS 是借鉴 Google 的文件系统(Google File System, GFS)来进行实现的,位于 Hadoop 的最底部,存储集群中所有存储节点上的文件;MapReduce 是 Hadoop分布式计算任务的基本任务执行单元,主要是基于 Google 对海量数据进行处理的模型MapReduce来实现的。
3 MapReduce 编程模式
MapReduce是Google公司提出的一个编程模型,适宜于大规模数据集的并行运算。与传统的分布式程序设计相比,MapReduce 不仅封装了并行处理、容错处理、负载均衡等细节,还提供了简单而又强大的接口。
