- 文献综述(或调研报告):
现代汉语词法、句法分析是进行汉语语义理解、中英文机器翻译、中文信息检索等首要解决的问题。中文分词是计算机进行汉语处理的基础。中文分词主要方法有: 基于词典的方法和基于统计的方法。词性标注就是为每个词的词性加上标注,也就是确定该词属于名词、动词、形容词还是其他词性的过程。中文词性标注方法主要包括两种: 基于统计的方法和基于规则的方法。还可利用分词和词性标注一体化模型对传统方法分开处理分词和词性标注进行了改进,有利于消除歧义和提高整体效率。分词过程中可以利用数据库结构特点建立主题词数据库提高查询效率。
对文本进行语义标签自动抽取的任务中,有两个主要的难点。1)获取文本信息的可计算表示形式。在文本中信息主要由自然语言形式表示,寻找对应文本的一种可计算表示形式是语义标签抽取中非常重要和基本的问题。2)在大量无标注环境下进行语义计算。在大量文本数据中,带有语义标签标注信息的文本只占极少一部分,而手工标注文本的语义标签的方式非常耗费人力成本。大部分的语义抽取方法往往是针对单篇文本的,忽略了不同文本间的语义联系,因此可利用词项聚类的文本语义标签提取方法,对多篇文本进行分析此可以更高效准确地对文本进行语义标签自动抽取。
在分词及标签提取过程中可利用机器学习的方法提高准确度。首先需对语料进行降维等预处理,剔除无效数据,从而提高机器学习方法学习的效率;然后基于现有的分词方法或标签提取方法,构建神经网络,进行相关机器学习的训练,从而大大提升分词及标签提取过程的效率。
参考文献:
- 陆建江,张亚非,苗壮等.语义网原理与技术[M].北京:科学出版社,2007:69~76.
- 梁喜涛,顾磊. 中文分词与词性标注研究[J]. 计算机技术与发展, 2015(2):175-180.
- Levene M. Search Engines. Information Retrieval in Practice[J]. Computer Journal, 2011, 54:831-832.
- Peng Y,zhou T. Research on the Apriori Algorithm in Extracting the Key Factor[c]//2012 IEEE 2nd International Conference on Cloud Computing and Intelligent Systems(CCIS) Hangzhou, 2012:90-93.
- Rodrguez MA, Egenhofer MJ. Determining semantic similarity among entity classes from different ontologies. IEEE Transactions on Knowledge and Data Engineering. 2003.
- 李雄,丁治明,苏醒,郭黎敏.基于词项聚类的文本语义标签抽取研究[J].计算机科学,2018,45(S2):417-421 438.
- 王懿. 基于自然语言处理和机器学习的文本分类及其应用研究[D].中国科学院研究生院(成都计算机应用研究所),2006.
- 湛燕,陈昊,袁方,王熙照.基于中文文本分类的分词方法研究[J].计算机工程与应用,2003(23):87-88 91.
- 张闯. 基于深度学习的知乎标题的多标签文本分类[D].北京交通大学,2018.
- 赵君珂,张振宇,蔡开裕.基于自然语言处理的医学实体识别与标签提取[J/OL].计算机技术与发展,2019(08):1-8[2019-03-29].
资料编号:[179780]
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
