PDF科技文档内容解析与知识组织文献综述

 2022-11-27 15:34:34

文 献 综 述

  1. 研究内容及研究背景
    1. 研究内容

本论文通过分析信息服务中PDF文档内容提取的现实需求,构建文献PDF文档内容解析与智能处理技术方案,实现对PDF文档中文本、图片、数据表、参考文献等多种文档要素的识别、抽取及深度挖掘。以期帮助信息服务工作者及时有效地检索和获取最新的科技信息和科研动态,从海量信息中准确定位、获取更多有价值的信息,为科技情报人员的信息获取与工具应用能力培养提供支撑。其中基于OCR技术对PDF文档的题目、作者、文本内容、摘要、关键词进行文字分析。

    1. 研究背景

OCR是1929 年由德国的科学家首先提出的概念,研究的初期,多以文字的识别方法研究为主,且可识别的文字仅为0至9的数字。我国在70 年代开始进行OCR技术的研究,最终实现了由数字、英文字母及符号的识别研究到汉字识别技术的研究,并通过计算机实现了识别的功能要求。 20 世纪 70 年代我国开始对数字、英文字母及符号的识别进行研究,70 年代末开始进行汉字识别的研究,到 1986 年,我国提出了 863 国家高技术研究发展计划,使得汉字识别的研究进入一个实质性的阶段,相继推出了中文OCR产品。由于识别率及产品化等多方面的因素,早期的OCR 软件未能达到实际要求,同时因硬件设备成本高,运行速度慢,大部分的OCR 技术没有得到广泛的应用。进入20世纪90年代以后,平台式扫描仪的广泛应用,以及我国信息 自动化和办公自动化的普及,大大推动了OCR 技术的进一 步发展,使OCR 的识别正确率、识别速度满足了广大用户的要求。随着OCR技术的发展,各种应用系统也相继出现,比如名片识别系统、身份证银行卡识别系统、车牌识别系统、银行票据识别系统、增值税发票识别认证系统等等。而衡量一个OCR 系统性能好坏的主要指标包含拒识率、误 识率、识别速度、用户界面的友好性以及产品的稳定性、易用性及可行性等几个方面,目前识别速度也是一个OCR性能的一个重要评判标准,同时利用移动客户端进行识别的要求也越来越高。

2. OCR目前的发展现状综述

2.1 OCR的应用场景

1、自然场景下多形态文本检测与识别

2、手写体文本检测与识别

3、文档的文本检测与识别(版面分析等)

2.2 OCR目前的技术综述

2.2.1文本检测技术:

1、CTPN(基于Faster RCNN):目前比较成熟的文本检测框架,精确度较好。但是检测时间较长,有很大的优化空间。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版