人机交互:如何更愉快地和 AI 唠嗑(知乎live整理)

共3619字,大概需要15-20分钟

这篇文章是前些天参加科大讯飞的知乎live“人机交互:如何更愉快地和 AI 唠嗑“的主讲人的讲课实录,在这里贴处来,作为一个记录吧。声明这篇文章仅作为个人学习所用,如有侵权请联系我删除。


这次的知乎live讲解了一下的内容:在人机交互背后究竟有哪些技术原理;需要解决哪些痛点;科大讯飞的 AIUI 有哪些功能;背后的交互链路是什么;开发者如何集成 AIUI 能力。

先上一下有意思的演示视频

1:https://video.zhimg.com/videos/4e065e0c713711e7b98e0242ac112a34.mp4?auth_key=1501640516-0-0-635d489ba0b2468a0be44d2fe3bb4746

2:https://video.zhimg.com/videos/6aa4e38a713711e7840f0242ac112a17.mp4?auth_key=1501640516-0-0-c3ca5223e2b1d6d481cfe88b90c9a38a

主讲人:人机交互主要研究人和计算机之间的信息交换,它主要包括人到计算机还有计算机到人的信息交换两部分,是以认知心理学、人机工程学、多媒体技术、虚拟现实技术这些密切相关的综合学科。

在PC时代,鼠标加键盘的人机交互是那个时代最伟大的发明,是人类与计算机交互最多的方式;本世纪初,智能手机、智能移动设备被发明和流行,人类进入了移动互联时代,那么在移动互联时代,人机交互最常见的方式就是多点触控、手写、手势以及一部分的语音交互;如今智能语音技术飞速发展,智能设备也从“能听会说”的语音应用走向“能理解会思考”的人工智能方向。随着智能终端的广泛普及,语音交互需求不断提升,语音技术和产品由后装不断向前装发展,并逐渐向芯片集成方向过渡。同时智能语音在更多垂直行业深入应用,推动垂直行业加快向智能化方向发展,智能硬件、智能家居、智能机器人便是下一个发力方向,也是智能语音新的市场增长点。互联网创新和产业互联网发展不断加快,“互联网化”已从趋势成为常态。智能语音在互联网化过程中转型发展,其市场格局将被重塑。

讯飞开放平台从2010年提供的最基础的的语音听写、语音合成,到11、12、13年进阶的命令词识别、个性化语音、语义理解,智能问答和离线语音能力,我们所提供的语音语义能力变得越来越智能,越来越好用;不过我们的脚步并没有停止,随后在14、15年,我们顺应智能硬件以及人工智能等领域的需求,相继发布了云+端融合、语音唤醒、人脸、声纹识别、语音评测、麦克风阵列、讯推、用户级唤醒等高级能力。

2015年12月份,讯飞发布全新的人工智能AIUI,为人工智能时代提供了一套软硬件一体的人机交互解决方案。

有过语音人机交互经验的开发者或者使用过语音交互的产品的用户,一定或多或少的都遇到过一定的问题,就是感觉语音交互在使用的过程中没有那么流畅,或者存在一些问题,那么我们总结了一下语音人家交互存在四大痛点。

传统的人机交互语音链路就如上图所示,在前端设备接受用户说话的语音,然后在本地或者云端做语音识别,将语音识别成文本,然后对识别出的文本做语义理解,对于理解的结果给出一定的处理,然后给出回答的文本,通过tts将文本合成为语音,传回客户端进行播报。这种简单的人机交互链路必然会出现前面所说的四大痛点,导致用户体验的下降,最终使用户对语音人机交互失去信心。

自然人机交互远比我们的单点的技术要复杂,要解决远场、句式、断句、还有上下文等各个技术点。完整的语音识别是需要软硬件一体、前后端相结合过程。从整个流程上来说,大致有音频采集、语音唤醒、声源定位、人声检测、断句、语音听写、语义理解几个主要的过程。

远场的人机交互场景上基本上都是采用多麦克风阵列方案,采集的是多通道音频和参考信号,主要是在硬件的基础上做好处理,减少因为硬件结构带来的噪音源,同时结合麦克风阵列的一个定向识音,采用前端声学的算法来解决降噪、混响、还有回声说带来的影响,

唤醒是人机交互对话的主要出发方式,就像你要和一个人说话,你就得喊他的名字一样,在语音对话的过程中仍然要支持持续的唤醒,就像你在和一个人对话,另外一个人喊你也是需要响应的。机器被唤醒后需要知道说话人的方位,这样才能定向的识音做降噪处理,同时增强说话人的声音,这个定位主要是运用多麦克风阵列的波束行程技术,通过唤醒时间运算得到的。

由于远场的拾音识别会把很多的噪音和无效语音采集进来,这个时候就需要有效的监测人声来过滤一些非人声。这个一方面是为了帮助交互界面友好的显示,林格爱一方面是为了减少网络和识别的负载。

语音断句是为了判断一个说了一句完整的内容,一便进行识别理解给予响应,对于识别来说首先要满足的就是持续的音频流的识别,作为持续的语音交互识别方案,不可避免的就要吸收很多无效的语音,所以局势是必须的。还有一些无关的语音,必须经过过滤,否则就会造成对话混乱。

最后把有效的语音送到支持上下文对话的引擎中进行语义理解,语义理解不止包含对用户的说话的意图,还有包括内容的获取,形成完整的交互链路。

语义理解获取的结最终交由TTS模块进行语音合成,AIuI目前的模块支持情感合成和场景合成,也就是说在不同的情境下合成带有不同情感色彩的语音,高兴、生气还有悲伤等等。

远场识别需要前后端结合去完成,一方面在前端使用麦克风阵列的硬件,通过波束成形和精准定位的方案可以在前端解决远场拾音、噪音、混响等问题。但是因为近场和远场的语音信号有一定的差异,所以在后端的语音识别上还需要和基于深度神经网络学习的训练针对远场的声学识别模型,这样才能解决识别率的问题。

人与人交互最大的特点就是持续、双向、可打断。

全双工交互是一个全链路贯穿的过程,不止是持续的拾音和网络传输过程,更需要包括持续的语音唤醒,人声的检测,智能断句,无效语音句式。

传统的语音唤醒方案中是一次唤醒过后进行语音识别和交互,交互完成后进入待唤醒状态,但是在实际的人与人交流中,人是可以和多个人对话且支持被其他人插入的,所以全双工的模式必须是可插入和可打断的。

全双工交互作为一个持续的交互过程,语音的识别和理解,需要能够做出快速的响应。这就需要前端的人声检测和智能断句。传统的断句是基于能量的检测来判定,但是有两个主要缺点,一是无法解决噪音和无效的语音,另外就是对说话人的要求较高,中间不能有停顿。如果后端点设置的太端,容易造成截断;后端点太长,又会造成响应不及时。

所以为了解决这两个问题,端点检测,在AIUI中采用基于模型的人声检测和基于语义的断句。基于模型的检测可以有效解决噪音和无效语音,这块主要是通过采集不同的语音数据,基于深度神经网络的训练的声学模型,可以过滤一部分噪音,把有效的语音传送到云端,进行持续的交互。
持续的音频流识别首先要做的也是要进行断句,语义断句主要是在识别过程中,用语义信息来预测和判定。如果检测到一句完整的有效内容,可将结果送入语义理解模块,从而保证结果可以最快返回到端上。另外基于语义的断句,要解决的一个主要问题就是用户的停顿,这在实际的人机交互中,是很常见的,以点歌为例,用户经常会说,我想听⋯⋯.周杰伦的歌,但是中间会有停顿,也许是在一秒,也许还是两秒,这时候后端的断句引擎必须要能解决这种问题,停顿较短,引擎需要等待后续的有效音频,给出完整的理解内容。但如果用户停顿时间过长,后端引擎需要给出响应,比如回答:您要听谁的歌,做出更好的引导提示。

用户为了完成一个目标,如点歌或者订票,可能是需要多轮的交互或者是对话,才能填满信息槽,上下文与业务的深度结合,基于内容的主动式提问,多对话的场景管理,跨场景信息共享,常识记忆来解决这些问题。

语义理解的系统升级为基于贴狐的深度学习系统,可以很好的解决语义理解的消歧问题。

产品简单易用,接口和使用简单,大家以前看到的是单点的录音、唤醒、VAD、识别、合成等等这些接口,使用AIUI方案,你看到的是人机交互信息,只需要被动响应,比如何时被唤醒、唤醒角度是多少,用户想干嘛,对于集成来说,真的很简单;
还提供产品的个性化定制能力,主要包括唤醒词定制、发音人定制、语义对话定制、应用热词定制、流程参数配置等,这些都是在Web平台上开放的功能,开发者可以根据产品需求,在平台上进行个性化的配置和编辑。

智能硬件解决方案就是我们的软硬件一体的解决方案,主要是面向机器人、智能家具、家电以及需要远场交互的行业。移动端解决方案是运用于移动端设备的AIUI解决方案,目前提供安卓、ios、windows、linux四种操作系统的SDK供大家集成使用,主要运用场景比如手机语音助手、智能客服、信息查询等等。应对servr to serve的产品,我们提供了webapi解决方案,开发者可以在哪自己的服务器上直接调用我们的restful接口使用的AIUI语音语义能力。

我们还将在后续的版本中提供微信解决方案,主要面向没有开发能力的用户,方便将我们的AIUI能力接入到他们的微信公众号使用,让微信公众号具备语音问答、语义理解的能力。

我们最终会打造这样一个技能共享的生态,内容和技能的提供商在AIUI开放平台上开发技能和内容,发布到我们的技能商城中,开发者可以从技能商城中选购自己所需要的技能(或者自己开发技能)使用到自己的产品中,而产品的最终用户也可以在技能商城中选购自己所需要的技能以及内容。这样,如此,形成用户-开发者-内容商的共享生态圈,提供开发者和内容商的共同获利。

3 条评论

  1. 喜欢贵站的风格!
    #友链申请#
    网站名称:林洋洋
    网站链接:http://linyy.name/
    头像链接:http://linyy.name/wp-content/uploads/2017/07/avatar-195×195.jpg
    网站描述:有故事的个人博客。
    友链已添加:http://linyy.name/?page_id=92

发表评论

电子邮件地址不会被公开。 必填项已用*标注

返回主页看更多
狠狠的抽打博主 支付宝 扫一扫