-
文献综述 - 国内外研究现状
统计表明,80%的国人带有方言口音,其中 55%的说话人带有严重的方言口音[5]。而处理带有方言的语音数据时,语音识别的性能往往下降较为显著。因此,方言的识别一直是众多科研机构和高校(如香港中文大学、清华大学 、中国科学研究院等)研究的热点。国内使用 GMM-HMM 及 N-gram 对吴、粤、闽方言进行方言辨识,并取得一定的成果,但所使用的音库数据与实际生活领域所需数据存在较大差异,无法解决实际应用中存在的问题。如何丰富音库数据,发挥更多的实际效果,依旧需要付出更多的努力。
不难发现,语音数据样本作为模型训练的基础,直接影响最终的识别效果。因此,语音数据采集和服务的后台系统设计重点突出在于以下三个方面,分别是语音的采集、管理以及数据对外服务。
(1)数据的采集
国内外倾向于采取生产数据采集平台化的设计方案,例如国内的DCS数据采集网络平台成功应用于多家大型石油炼化企业,涵盖300多套炼化装置[6],这对于同样需要从分散的语音采集用户手中汇集样本提供了可借鉴的方案。其次,采用Web应用信息自动化抽取方法抽取数据可大幅度降低数据采集成本,提高采集效率[7]。从最初的人工控制信息抽取的代表算法,例如TSIMMIS、W4F和WebOQL,到半自动化抽取方式,例如XWRAP和IERAD,再到最后的自动化抽取方式,例如Omini和SDEBT,这些动态Web爬虫技术拓展了方言语音数据采集的领域,充分利用现有的资源。
(2)数据的管理
数据的管理方式多样不一。从简单的采集与监控案例[8]到网络大数据分类开发[9],不同的系统对数据处理的侧重点不同,例如各自着重于可视化、存储管理、挖掘、社会计算等等方面,各有所长。在实际的大型生产过程中,为保证每年数十亿的数据的保存,设计师在设计上可制定好以下三点数据的分解策略,分别是分库设计不同的数据类型、设计多级存储结构和针对SQLServer做配置的优化。
(3)数据的服务
总的来说,建立数据共享交换平台已成为一个不错的选择[10]。数据交换依托于云平台的基础设施,设计上基于SOA架构,并且采用Web Service技术进行组件和应用的包装。平台的部署方式包括交换中心、交换节点和数据前置机,逻辑功能包括通信层、数据层和业务层。数据共享交换平台通过 Web Service 的服务请求和调用,实现数据的交换和共享。
- 研究主要成果
在数据采集、管理、服务和分享各个方面,国内外研究成果颇丰。以下罗列设计所需几项主要成果。
