1.引言1.1课题提出的背景和意义中医文献是中医学术的根基,整理文献中蕴含的学术精华是深化中医理论认识,提高中医临床疗效的必由之路。
中医医案是中医文献的重要组成部分,蕴含了历代医家留下的宝贵经验,研究医案有助于继承前辈医家的学术思想,总结汲取临床经验教训,开阔思路以指导临床实践;同时,中医医案承载着宝贵的中医理论资源,从医案中总结提升基础理论,是继承发展中医理论的重要途径。
随着医案类文献信息数量的快速增大,采用多源异构数据抽取技术对大量医案进行知识发现的研究得到了越来越多专业人士的重视。
1.2多源异构数据抽取简介及其在中医药研究中的应用多源异构数据抽取,从不同类型的数据中抽取自己想要的数据的技术。
中医对于肺癌治疗有着非常重要的贡献,但是如今关于肺癌治疗的医案越来越多,而且数据类型也不同,有html,文本,还有表格。
多源异构数据抽取技术正是从不同类型的医案中抽取我们想要的内容,这对于中医肺癌治疗医案的整合起到了非常大的作用。
2.网络爬虫研究2.1、爬虫技术概述网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。
从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。
传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
