超周全的语音交互常识总结：从事理、场景到趋势

文章目录 [+]

1. 什么是语音交互？

语音交互（VUI）指的是人类与设备通过自然语音进行信息的通报。
一次完全的语音交互须要经历ASR→NLP→Skill→TTS的流程：

超周全的语音交互常识总结：从事理、场景到趋势超周全的语音交互常识总结：从事理、场景到趋势互联通信

（1）ASR

（图片来自网络侵删）

用于将声学语音进行剖析，并得到对应的笔墨或拼音信息。
语音识别系统一样平常分演习和解码两阶段：

演习即通过大量标注的语音数据演习数学模型，通过大量标注的文本数据演习措辞模型；解码，即通过声学和措辞模型将语音数据识别成笔墨。

声学模型可以理解为是对发生的建模，它能够把语音输入转换成声学表示的输入，更准确的说是给出语音属于某个声学符号的概率。
措辞模型的浸染可以大略理解为消解多音字问题，在声学模型给出发音序列之后，从候选的笔墨序列中找出概率最大的字符串序列。

（2）NLP

用于将用户的指令转换为构造化的、机器可以理解的措辞。
NLP的事情逻辑是：将用户的指令进行Domain（领域）→Intent（意图）→Slot（词槽）三级拆分。

以“帮我设置一个来日诰日早上8点的闹钟”为例：该指令命中的领域是“闹钟”，意图是“新建闹钟”，词槽是“来日诰日8点”。
这样，就将用户的意图拆分成机器可以处理的措辞。

（3）Skill

也即AI时期的APP。
Skill的浸染便是：处理NLP界定的用户意图，做出符合用户预期的反馈。

（4）TTS

即语音合成，从文本转换针言音，让机器说话。
TTS业内普遍利用两种做法：一种是拼接法，一种是参数法。

拼接法即从事先录制的大量语音中，选择所需的基本发音单位拼接而成。
优点是语音的自然度很好，缺陷是本钱太高，用度本钱要上百万。
参数法指利用统计模型来产生语音参数并转化成波形。
优点是本钱低，一样平常价格在20万~60万不等，缺陷是发音的自然度没有拼接法好。
但是随着模型的不断优化，现在参数法的效果已经非常好了，因此业内利用参数法的越来越多。

2. 语音交互有哪些利害势？PART 1: 语音交互的上风

上风1：信息通报效率高

百度语音开放平台的研究结果显示，比较于传统的键盘输入，语音输入办法在速率及准确率方面更具上风。
利用语音输入英语和普通话的速率分别是传统输入办法的3.24倍和3.21倍，信息通报效率进一步可拆分为4类：

检索高效：针对繁芜的输入词，尤其是在输入办法不便的场景下，语音交互更高效。
例如电视场景下进行电影搜索。
跨空间便捷：远场语音交互可以跨3~5米进行互换，针对须要跨空间的操作，语音交互更高效，例如：智能家居掌握。
跨场景便捷：语音交互的潜在好处时可以根据说话内容自动判断意图场景，在须要频繁跨场景交互的场景下语音交互更高效。
支持组合指令：语音交互可以一次性下达多条指令，然后分别实行，在须要支持多意图同时通报的场景下语音交互更高效。
假设你今晚想要看一部电影，你可以选择说：“播放刘德华的电影电影要四星以上并且是免费不雅观看的。
”

上风2：解放双手和双眼

通过措辞交互可以将手和眼睛空起来处理其他事情，在须要多感官协同的场景下效率更高。
例如：车载场景通过语音点播音乐，医疗场景年夜夫在沟通病情的同时记录病历，工业场景在双手占用的同时下达指令。

上风3：利用门槛低

非笔墨利用者友好：人类是先有语音再有笔墨，每个人都会说话但有一部分人不会写字，针对老人、小孩、失落明的人群，无法利用笔墨交互，语音交互会为其带来极大的便利。
学习本钱低：语音交互更自然，在非繁芜场景下，语音交互比界面交互更自然，上手本钱更低。

上风4：通报声学信息

声纹识人：通过声纹可以进行身份判断，并且可以不才达指令的同时进行身份判断，效率更高。
同时声音还可以判断性别、年事层、感情等信息。
声音通报情绪：声音交互可以通报情绪，因此在有情绪诉求的场景下，声音是一个很好的选择。

PART 2：语音交互的劣势

劣势1：信息吸收效率低

语音输出是线性的，当别人说话时，你可能得等全部说完后才能理解，无法像笔墨一样可以跳过阅读；语音交互也会增加用户的影象包袱，尤其是面临多项选择并且选项内容较永劫。

因此它无法同时输出很多内容，在接管信息和多选择交互时，视觉具有更大的上风，声音的效率不高。
总结来讲，语音交互针对单向指令是更有效的，而双向交互不是很有效。

劣势2：喧华环境下语音识别精度降落

语音识别须要清晰的识别出人声，包括将人声和环境声进行分离，将人声和人声进行分离。
喧华环境使得人声的提取变得非常困难，尤其是针对远场语音交互，噪音的问题更加突出。

目前业内普遍利用麦克风阵列硬件和干系算法来优化该问题，但是无法完备办理，例如远场安静环境下语音识别准确率能达到95%，但是在喧华环境下仅能达到80%出头。
但是随着技能的进度，喧华环境下的远场语音识别准确度也肯定会逐步完提升。

劣势3：公开环境下语音交互具有生理包袱

语音交互的生理障碍是用户不能预设和预先判断。
在同一情形下，不同的人可能会产生完备不同的行为和期望。
这给设计者带来了很大的麻烦，也给用户带来了不愿定性。
从生理体验来看，没有多少人乐意对着机器说话，由于有可能会得到毫无感情乃至是缺点的反应

3. 语音交互适宜什么场景和设备？

我们判断什么场景和设备适宜增加语音交互，根据语音交互的利害势剖析，得出以下加分项和减分项，为了大略起见，每个得分享授予相同的权重，然后打算综合得分，将适用程度划分为高、中、低3档，分别记2、1、0分。

原则1：每个设备类型仅考虑起本身的功能，不考虑由于入口性子附加的额外功能，例如智能音箱，现在除了音箱属性，被授予了景象、智能家居等其他属性。
未来形态下家庭语音入口会分布式的，智能音箱被授予的生活助手的角色也会被剥离。

原则2：设备的功能考量时会考虑现在还不具备但是往后会延展的干系功能，例如冰箱，支持查询冰箱内的物品情形。

加分项：

须要繁芜的信息输入：输入指令不能被穷举，则得分最高，如果仅大略的输入指令，则得分低；利用工具双手或双眼被占用；利用工具为非笔墨利用者：如果利用人群里老人、小孩和失落明人群较多，则得分高，反之得分低；须要跨短间隔空间的操作：如果有实体按键，则得分高，如果可远程遥控则得分次之，而且皆无，则不得分；原信息输入的工具比较受限：输入办法的便利程度触屏>遥控>按钮；须要跨意图指令输入：如果须要同时或者相继发出不同意图的指令则得分高，反之得分低；利用频次：基本每天都要利用得分最高，每周3次旁边次之，低于每周一次不得分；设备与声音的关联度：如果设备本身便是播放多媒体内容的得分高，其他的不得分；须要声音通报额外信息：例如声纹、发音评测。

减分项：

环境私密程度低：例如办公场景；环境喧华：例如阛阓场景；涉及到多层次交互（触屏可填补）：例如点外卖；涉及到多条款选择（触屏可填补）：例如购物；涉及到主要/隐私信息传达（屏幕可填补）：例如取款机。

下表为各的场景和设备适宜语音化的得分：

（1）家居场景

家庭环境比较封闭和私密，并且噪音少，是实现语音交互的很好环境。

电视：机顶盒视为和电视同类，电视本身遍及率及利用频次高，生态内容丰富使得其操作相对繁芜，但又受限于遥控器这种低效的输入办法，使得电视成为最适宜进行语音改造的设备，但是受囿于价格昂贵，尝鲜门槛高，以是改造的节奏相对较慢，但是新一代的电视语音化肯定是不可阻挡的趋势。
平板：市情上目前盛行的带屏音箱，更得当的说法该当是语音平板。
音箱：音箱由于其低廉的本钱（无需屏幕和视频资源）而率先引爆市场。
灯：虽然指令大略，但是因其操作频繁且须要起身走到面前操作，跨空间本钱高，使得灯具被语音化的诉求也较高。
但是灯最适宜的语音化是本地离线指令，也即通过“开灯”、”关灯”本地直接识别并掌握灯具，无需加唤醒词，也无需先传到云端，云端处理完再传到本地，更简洁更快速。
空调：空调因此相对高频的利用和较为繁芜的指令，和灯具类似具备一定的语音化必要。
冰箱：基本没有语音化必要，除非冰箱承载的功能做了极大延展，例如冰箱增加屏幕，同时作为餐厅的电视利用，那么其语音化的必要性与电视同等。
洗衣机：基本没有语音化必要。

（2）车载场景

随着车联网和智能汽车的兴起，越来越多的功能被搭载在车机上。
层出不穷的功能和日趋繁芜的界面形成了对驾驶者把稳力的争夺，新的抵牾由此出身。
车载语音技能的独特上风——帮助驾驶者降落对车内设备的操作依赖，增加驾驶安全系数。

车载场景相比拟较私密，但是噪音比较家庭场景较高，尤其是当开窗之后风噪更大。
但是由于开车时手和眼睛都被占用，语音成为交互的最佳选择，如接听电话、开关车窗、广播音乐、路线导航等语音指令，这就使得驾驶更加安全，可以更专注于路况。

车载常用语音功能如下：

（3）医疗场景

病历录入：语音识别在医疗中的运用紧张集中在直接将语音转成构造化电子病历，方便年夜夫随时查阅，大大减轻了事情量。
可以为年夜夫节省手写病历的韶光，同时也可以为医患轇轕供应材料佐证。

语音识别技能已经在以美国为首的西方国家成功利用到医院放射科、病理科、急诊室等部门中，临床中利用语音识别录入的比例已达到20%以上，并能够明显降落年夜夫事情强度，提高事情效率，降落了医院日常运作本钱。
医疗业务营收占环球最大的语音技能公司Nuance全部营收的50%。

（4）企业场景

智能客服：智能客服分为语音呼叫中央和在线客服两块来看。
在客户做事行业，当用户要求接入后，先由智能客服机器人解答80%的常见问题，剩下20%繁芜问题再由真人专家客服来回答办理。
智能客服机器人创造的整套流程已经完备改变了全体客服行业的劳动力构造和事情办法。

目前，中国大约有500万全职客服，以年均匀人为6万打算，再加上硬件设备和根本举动步伐，整体规模约4000亿公民币。
按照40-50%的替代比例，并打消园地、设备等根本举动步伐以及甲方预算缩减，大概会有200-300亿规模留给智能客服公司。
AI对企业做事市场的变革并不仅限于客服场景，以企业和用户沟通为桥梁和入口，智能客服公司可以延伸到营销、发卖等主要的企业做事外部场景，从交互办法、流程优化、数据剖析等角度推动企业外部做事的全面智能化，从而开释100-200亿的原有营销、发卖等市场规模。
除了取代部分人工的客服机器人，AI也在变革企业传统的线下客服交互办法。
随着智能设备、物联网的遍及，各种设备也将成为企业做事客户的入口和新兴场景，智能客服公司、尤其是AI公司有机会在千亿智能设备交通商场等分得200-300亿规模。

（5）教诲场景

语音平板：在少儿教诲场景，语音可以发挥的空间会非常大，一方面少儿的笔墨学习还没有非常完善，因此在信息录入和互动方面，措辞是更低门槛的交互选择，另一方面，语音可以进行中英文发音的测评和纠正，对少儿的学习发展代价更大。

互动措辞学习：针对措辞发音，进行实时评测和纠正，提升学习效果；互动动画：在动画中插入场景化语音交互，寓教于乐，提升少儿的沉浸感。

（6）出行场景

智能耳机：搭配工具来进行语音交互会使得私密性更强而且更加方便。
耳机作为本身便是穿着中的一种产品，携带方便，决定了它有更多自然的利用场景，耳机这样私人且私密化很强的产品，无论人们是在上班通勤、户外运动还是在旅行时也能保持更高的利用率，戴在耳朵上的耳机，离人的措辞器官很近，当你和耳机进行语音交互的时候，更像是和朋友交谈。

利用耳机来与手机的语音交互模式连接时，是不是也可以利用一些动作来唤醒它，例如：去敲击耳机，通过这类动作去唤醒可能会比喊它更加的自然，纵然在公开场合也会避免尴尬涌现。

（7）机器人

措辞交互是人类日常最常用的交互办法，机器人自然要集针言音交互的功能。
机器人分为消费级机器人和商户级机器人，消费级机器人利用语音通报情绪和提升交互效率，商户级机器人利用语音通报品牌感和提升做事效率。

（8）安全与鉴权

声纹：是无感知的身份识别，声纹识别的理论根本是每一个声音都具有独特的特色，通过该特色能将不同人的声音进行有效的区分。

美国研究机构已经表明在某些特点的环境下声纹可以用来作为有效的证据。
并且美国联邦调查局对2000例与声纹干系的案件进行统计，利用声纹作为证据只有0.31%的缺点率。
目前利用声纹来区分不同人这项技能已经被广泛认可，并且在各个领域中都有运用。

声纹常常运用于刑侦破案、罪犯跟踪、国防监听、个性化运用等等，说话人确认技能常常运用于证券交易、银行交易、公安取证、个人电脑声控锁、汽车声控锁、身份证、信用卡的识别等。

4. 语音交互与其他交互办法的领悟？

语音交互有着信息吸收效率低、喧华环境识别精度低、公开环境生理包袱的劣势，因此在很多场景下纯语音交互很受限，但是这些交互办法是可以通过其他交互进行填补的。

毋庸置疑，在接下来的几年内肯定会有更多不同结合办法的产品涌现。

（1）语音输入/视觉化输出

近些年，市情上有许多产品合入了语音输入，个中有很多是有显示屏的产品。
在这些产品上，我们许可用户语音输入，而用界面显示输出的信息。

语音智能电视也是一个很好的例子。
它们没有能够支持繁芜输入的硬件设备，而本身又有足够多的功能足以支撑自然语义查询。
比如通过语音直接说“播放流浪地球”，要比用遥控器上的十字箭头方便多了。

语音智能屏幕是其余一个例子，从18年下半年语音智能屏幕开始盛行，紧张针对老人和小孩的人群，对老人的代价在于可以通过语音交互，搜索想看的影视内容，对儿童的代价，在于语音沟通、影视播控以及声音的评测。

实际上，那些有繁芜功能，须要繁芜输入，而这些输入都可以用语音命令代替，同时返回的结果不适宜机读出来的系统，都适宜利用语音作为输入办法，而用视觉作为输出办法。

（2）稠浊模式

许多设备都在朝着稠浊模式的方向发展，它们会将语音、物理输入和屏幕、语音输出结合。
导航app便是一个将这些交互手段结合的范例例子。

用户能够触控拖动舆图来查看，用物理按键或虚拟键盘输入。
当驾车时，可以通过直接说目的地名称来开启导航，用这种办法用户可以不用将目光移向屏幕或用手来操作。
语音输出可以输出导航的命令指示，而例如周围道路拥堵状况等较难堪以描述的信息可以利用屏幕显示。

这是一种很好的输入输出结合办法，每种交互办法都将自己的上风发挥出来。
全体导航系统会根据用户需求和信息的繁芜程度来选择信息的呈现办法，一方面，用户在特定场景下可以不用手眼就能操作，而同时用户也能选择在另一些场景下利用屏幕。

但这种办法的设计还很少见，由于上述的办法是基于对用户的利用办法有深刻理解的根本上的。
导航系统在汽车内利用语音还是一个比较明显的场景，但不是所有的产品都有一个明确的利用环境，以是判断什么情形下利用语音交互是比较困难的。

5. 语音交互的未来

虽然目前的语音识别技能已经能够让机器听懂大部分人类的声音，但离“贾维斯”这种假想的超级智能助理的交互能力还很远，语音识别技能的发展方向将从识别到感知认知。

趋势1：免唤醒交互

远场语音交互，出于意图识别考虑，增加唤醒词作为对话开始的条件，但是唤醒词也无形中增加了沟通的本钱。
尤其是在一些多轮次交互方案中，例如：你想看电影，主流程须要“我要看电影”-“播放第3个”-“全屏”-“快进3分钟”，如果每次都要唤醒，用户体验很差，部分情形反而不如遥控器效率高。
因此在特定多流程场景下急迫须要免唤醒交互。

趋势2：离线语音识别

离线语音识别指的是在本地直接进行指令的识别和处理，而无需连接到云端，好处是一方面无需唤醒词，另一方面无需联网，速率快。
针对灯、空调、电视等设备，采取离线指令识别体验更好，例如直接对设备说“开灯”和“关灯”可以快速实现台灯的开和关。

趋势3：多通道交互

IOT时期家庭的联网设备越来越多，但是体验提升有限，直到IOT有了语音AI的加持，彻底发布AIOT时期的到来，通过语音设备可以掌握联网设备，进一步促进了家庭智能设备的渗透和覆盖，2018年中国智能音箱发卖量约2200万台，随着家庭智能设备的越来越多，用户的需求也逐步涌现新的特色。

第1：需求每每都是非单一任务，而是多任务聚合；第2：须要多设备之间的联动；第3：做事状态可以持续性迁移，无论是跨韶光还是空间。

多通道交互便是综合利用多种输入通道和输出通道，用最恰当的办法通报做事，知足用户需求。

普通一点讲，多模态互动便是将智能设备的通道进行注册和管理，根据用户的需求，给不同的通道分配相应的任务，以期用最恰当的办法去知足用户需求。
例如：将智能音箱和电视作为一个别系进行多通道交互，可以综合利用它们5个输入和输出通道。
举个最大略的例子：当我问音箱景象的时候，可以将景象的图形通过电视进行显示和播报，更用户更直不雅观的体验。

MCUI在家庭场景落地的最范例案例，便是智能音箱和机顶盒的组合，可以实现带屏智能音箱的所有功能，并且体验更佳。

一方面本钱更低，一个无屏音箱100元以内，带屏智能音箱须要500元旁边。
另一方面大屏不雅观看体验更佳，针对儿童教诲场景，大屏不随意马虎造成近视，并且父母的可管控型更强，因此智能音箱+机顶盒的产品体验，往后一定会成为主流。

参考资料：Laura Klein，面对智能化的未来，设计师你准备好了么（语音交互篇）

作者：Jason，微信公众号：Smart_Byte。

本文由@Jason 原创发布于大家都是产品经理，未经容许，禁止转载

题图来自Unsplash, 基于CC0协议