课题名称 基于深度学习的医学文本信息挖掘课题性质 radic; 基础研究应用课题 设计型 调研综述 理论研究开题报告内容:(包括拟研究或解决的问题、采用的研究手段及文献综述,不少于2000字)课题研究背景:近年来,随着医学文本信息的快速增长,对对这些信息的利用难度也不断加大,如何快速从医学文本中抽取实体,挖掘实体关系就变得尤为重要。
传统的医学实体关系抽取多采用有监督或半监督的学习方法,在标注语料集充足的情况下可以获得很好的效果。
而如果初始语料集不足,使用有监督或半监督的方法很难获得令人满意的结果,使用深度学习则可以在标注语料集很少的情况下利用未标注语料进行训练从而得到较为满意的结果。
深度学习的优势在于:(1)深度学习对于实体特征有再次学习的能力,满足海量数据的训练;(2)深度学习可以从未标注语料中获取信息,可解决初始标注语料集不足的问题。
课题研究内容及意义:本研究拟将大量从医学文本描述中得到的词向量和已标注过的向量放入深度学习相应算中进行训练,旨在通过训练出的模型对任何一段的医学文本能够很好地挖掘出其中的命名实体以及实体之间的关系,减少医学文本处理中的人工依赖,并在很大程度上减少人工误差,提高数据处理的准确率。
文献综述: 生物医学领域内的命名实体识别不同于一般的中文命名实体识别,它有着自己的特点和难点(如命名规则不统一,缩写等)。
因此,寻找到有效的生物医学命名实体识别方法是非常必要的。
近年来,人们提出了很多不同的生物医学命名实体识别的方法。
这些方法总结下来,主要有四类:基于词典的方法、基于启发式规则的方法、基于机器学习的方法、组合分类器法[1]。
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
