垂直网站网络分布式爬虫的设计与实现文献综述

 2022-11-08 14:52:46

文 献 综 述

摘要:

随着科技的日新月异,互联网也在飞速地发展之中,网络上的资源日益丰富,通过百度、Google等搜索引擎获取到的信息一般也可以满足普通民众的需求,但是对于那些有专业需求及要求搜索信息相关的较高的人来说,普通的搜索引擎就显得心有余而力不足。这时垂直搜索引擎应运而生,作为普通搜索引擎的细化和延伸,垂直搜索引擎专攻某个专业,更能满足特定行业用户的需求。

同时随着互联网的发展,如何有效地提取和利用互联网上的巨大信息也是一个挑战。传统搜索引擎往往作为人们访问万维网资源的工具和入口,但是通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深;通用搜索引擎大多提供基于关键字检索,难以根据语义信息提出查询。为了解决上述问题,定向抓取网络资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关连接,获取所需要的信息。

关键词:垂直搜索引擎、网络爬虫 、聚焦爬虫(主题爬虫)

一、垂直搜索引擎和网络爬虫简介

垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索hellip;hellip;几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。

网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

网络爬虫按照系统结构和实现技术可以分为以下几种类型[6]通用网络爬虫、聚焦网络爬虫、增量式网络爬虫。通用网络爬虫[7]又称为全网爬虫Scalable Web Crawler,爬行对象从一些种子url扩充到整个Web主要门户站点搜索引擎和大型Web服务提供商。聚焦网络爬虫Focused Crawler又称主题网络爬虫Topical Crawler,是选择性的爬取那些与预先定义好的主题相关页面的网络爬虫[8]。随着垂直搜索的蓬勃发展,聚焦网络爬虫成为研究的前言[9],提出通过深入分析生活类网站的树形结构的架构。目标URL增量式网络爬虫Incremental Web Crawler[10]是指对已下载网页采取增量式更新和只爬取新产生的和已经发生变化网页的爬虫,能够在一定程度上保证所爬取的页面尽可能是新的页面。

二、判断相关度的算法

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版