文献综述(或调研报告):
1.人机交互技术的发展
人机交互技术是指通过计算机输入、输出设备,以有效的方式实现人与计算机对话的技术。人机交互技术包括机器通过输出或显示设备给人提供大量有关信息及提示请示等,人通过输入设备给机器输入有关信息,回答问题及提示请示等。人机交互技术是计算机用户界面设计中的重要内容之一。人机交互技术在计算机出现以来就在不断发展,其主要趋势有以下几点:
- 从单一通道交互(如键盘输入等)向多通道交互(结合触觉、语音等交互方式)发展,利用人脑的多通道信息处理能力提高与计算机的交互效率。
- 从平面交互(键鼠操作、触控等)向立体交互(体感、语音交互等)发展,摆脱交互平面的束缚,将交互空间发展为立体的,让人机交互更自然。
- 从机器命令交互向自然语言交互发展,让用户能以更自然的方式与机器交互。
- 从逐一执行向上下联系、理解用户意图的交互方式发展。
人机交互技术的发展始终围绕着让人更便捷、更自然的与机器交互为中心,其目的便是为了提高人与机器的协作效率以及让人更舒适的使用机器。为达成这样的目标就让人机交互需要多维发展,让机器能有人一样的交互能力。
2.语音交互的发展
语音是语言的声学表现,是人类交流信息最自然、最方便的手段。让机器与人进行语言交流是机器交互领域一直以来的一个重要研究方向。要实现语音交互,语音识别技术便是语音交互技术的核心。语言识别技术的发展很大程度上决定了语音交互技术的发展。
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别有两种含意,第一种是将口述语言逐字逐句地转换为相应的书面语言(即文字),第二种则是对口述语言所包含的要求或询问作出正确地响应,而不拘泥于将所有词正确转换为书面文字[1]。现在语音识别关键技术包括特征参数提取技术、模式匹配准则及模型训练技术、语音技术单元选取。
同时,深度学习在语音识别中的应用也是现在的重点研究方向,主要涉及到限制波尔兹曼机、自动编码器、卷积神经网络、递归神经网络这几种深度模型[4]。现阶段主要应用有利用深度学习进行语音特征提取以及利用深度学习网络进行声学建模。
现阶段在语音交互方面较领先的组织有微软、谷歌、Amazon等,他们已推出多种语音助手,可实现一定程度的自然语言理解,实现了帮助用户设置日程、语音搜索等功能。但这些产品仍不完善,在识别率、自然语言理解能力、上下文关联能力方面还有待进一步发展。
3.HoloLens工作原理
