语音交互：从语音唤醒（KWS）聊起

文章目录 [+]

“Hi siri”、“天猫精灵”、“小爱同学”，我们生活中常常会叫到这些名字，让她们来帮我们完成一些指令，这个过程就像叫某人帮你做某事的觉得。

而这个叫名字的过程，便是我们本日要聊的语音唤醒。

语音交互：从语音唤醒（KWS）聊起语音交互：从语音唤醒（KWS）聊起互联通信

一、什么是语音唤醒

语音交互前，设备须要先被唤醒，从休眠状态进入事情状态，才能正常的处理用户的指令。

（图片来自网络侵删）

把设备从休眠状态叫醒到事情状态就叫喊醒，我们常见的有触摸唤醒（锁屏键），定时唤醒（闹钟），被动唤醒（电话）等，而语音唤醒便是——通过语音的办法将设备从休眠状态切换到事情状态。

语音唤醒（keyword spotting）：在连续语流中实时检测出说话人特定片段。

可能有长得好看的同学就要问了，我让他一贯保持事情状态不可以吗？

事情状态的设备会一贯处理自己收到的音频信息，把不是和自己说话的声音也当作有效信息处理，就会导致乱搭话的情形。
而语音唤醒就成功的避开了这个问题，在只有用户叫名字的时候事情，其他韶光休眠。

实在到底是否须要语音唤醒这个能力，也是看场景的，有些廉价的玩具，便是通过按住按钮进行语音交互的。

二、语音唤醒的运用有哪些

语音唤醒目前的运用范围比较窄，紧张是运用在语音交互的设备上面，用来办理未便利触摸，但是又须要交互的场景。

生活中运用的最好，就该当是智能音箱了，每个品牌的智能音箱都有自己的名字，我们通过音箱的名字唤醒她，和她进行交互，掌握家电。

其次便是手机，目前大部分手机都配有手机助手，从苹果最早的siri到现在的“小爱同学”，让我们实现了纵然不触碰手机，也可以实现一些操作。

还有一些做事类型的机器人，也会用到语音唤醒。

不过一样平常机器人会采取多模态的唤醒能力，他会结合语音唤醒、人脸唤醒、触摸唤醒、人体唤醒等多个维度的信息，在得当的时候进入事情状态。

三、语音唤醒的事情事理是什么

语音唤醒能力紧张依赖于语音唤醒模型（下称“唤醒模型”），是全体语音唤醒核心。

唤醒模型紧张卖力在听到唤醒词后立时切换为事情状态，以是必须要实时监测，才能做到听到后及时反馈。
由于须要实时相应，以及唤醒模型对算力哀求不高档方面缘故原由，一样平常唤醒模型是做在本地的（差异于云真个ASR识别）。

这便是我们纵然没有联网，你叫“小爱同学”，她也会答应你的缘故原由。

唤醒模型的算法经由了三个阶段的发展：

1. 基于模板匹配

用模板匹配的方法来做唤醒模型，一样平常会把唤醒词转换成特色序列，作为标准模板。

然后再把输入的语音转换成同样的格式，利用DTW （dynamic time warping）等方法，打算当前音频是否和模版匹配，匹配则唤醒，不匹配则连续休眠。

大略理解便是找到唤醒词的特色，根据特色制订触发条件，然后判断音频内容是否知足触发条件。

2. 基于隐马尔可夫模型

用隐马尔可夫模型来做唤醒模型，一样平常会为唤醒词和其他声音分别建立一个模型，然后将输入的旗子暗记（会对音频信息进行切割处理）分别传入两个模型进行打分，末了比拟两个模型的分值，决定是该唤醒，还是保持休眠。

大略理解便是分别对唤醒词和非唤醒词作了一个模型，根据两个模型的结果比拟，决定是否唤醒。

3. 基于神经网络

用神经网络来做唤醒模型，可以分为多种：

有将模版匹配中的特色提取，改为神经网络作为特色提取器；也有在隐马尔可夫模型中，某个步骤利用神经网络模型的；还有基于端到真个神经网络方案。

凡是用到神经网络事理的，都可以说是基于神经网络的方案。

实在唤醒模型事情事理很大略，便是一贯在等一个旗子暗记，等到这个旗子暗记就切换到事情状态，只是判断旗子暗记的内部逻辑不同而已。

四、如何演习一个唤醒模型

一样平常演习语音唤醒模型大概须要四个步骤，包括：

1. 定义唤醒词

首先我们须要定义一个唤醒词：

定义唤醒词也是有讲究的，一样平常会定义3-4个音节的词语作为唤醒词。
像我们常见的“天猫精灵”、“小爱同学”、“小度小度”，全部都是4个音节，由于汉语的发音和音节的关系，你也可以大略的把音节理解为字数。

唤醒词字数越少，越随意马虎误触发；字数越多，越不随意马虎影象——这也是一样平常定义在4个字的缘故原由。

其余这3-4个字要避开一些常见的发音，避免和其他发音涌现竞合，要不然会频繁的误唤醒。

一样平常唤醒词会做这样一个处理，便是唤醒词中的连续3个字也可以唤醒，比如你喊“小爱同”，同样可以唤醒你的小爱同学。
这是为了提高容错率所做设定的规则。

2. 网络发音数据

然后就须要网络这个唤醒词的发音，理论上来说发音人越多、发音场景越丰富，演习的唤醒效果越好。

一样平常按照发音人数和声音时上进行统计，不同的算法模型对付时长的依赖不一样。
基于端到端神经网络的模型，一个体验良好的唤醒词可能须要千人千时，便是一千个人的一千个小时。

网络唤醒词发音的时候，一定要把稳发音的清晰程度，有时候乃至要把附近的音也放到演习模型中，防止用户发音问题导致无法进行唤醒。

如果用户群体弘大，乃至考虑该唤醒词在各种方言下的发音。

3. 演习唤醒模型

数据都准备好了，就到了演习模型的阶段了，这里常见的算法有：

基于模板匹配的KWS基于马尔可夫模型的KWS基于神经网络的方案

这三种方案比拟如下：

4. 测试并迭代

末了便是测试并上线，一样平常分为性能测试和效果测试，性能测试紧张包括相应韶光、功耗、并发等，这个一样平常交给工程师来办理。

产品会更关注效果测试，详细的效果测试我们会考虑唤醒率、误唤醒率这两个指标，后面的测试环节我们会详细测试的流程和指标。

产品上线后，我们就可以网络用户的唤醒数据，唤醒词的音频数据就会源源不断。
我们须要做的便是对这些唤醒音频进行标注、网络badcase，然后不断的进行演习，再上线，便是这么一个标注、演习、上线的循环过程。

直到边际本钱越来越高的时候，一个好用的唤醒模型就形成了。

五、语音唤醒怎么测试

语音唤醒测试最好是可以仿照用户实际的利用场景进行测试，由于不同环境可能实现的效果不一样。
比如：常见各个厂商说自己的唤醒率99%，很可能便是在一个安静的实验室环境测试的，这样的数字没有任何意义。

这里说到的场景紧张包括以下几点：周围噪音环境、说话人声音响度、以及说话间隔等。

测试的条件约束好，我们就要关心测试的指标了，一样平常测试指标如下：

1. 唤醒率

唤醒词被唤醒的概率，唤醒率越高，效果越好，常用百分比表示。

在仿照用户利用的场景下，多人多次测试，重复的叫喊醒词，被成功唤醒的比便是唤醒率。
唤醒率在不同环境下，不同音量唤醒下，差别是非常大的。

用25dB的唤醒词测试，在安静场景下，3米内都可以达到95%以上的唤醒率，在65-75dB噪音场景下（日常交谈的音量），3米内的唤醒率能够达到90%以上就不错了。

以是看到各家唤醒率指标的时候，我们要意识到是在什么环境下测试的。

2. 误唤醒率

非唤醒词被唤醒的概率，误唤醒率越高，效果越不好，常用24小时被误唤醒多少次表示。

在仿照用户利用的场景下，多人多次测试，随意叫一些非唤醒词内容，被成功唤醒的比便是误唤醒率。

如果误唤醒率高，就可能涌现你在和别人说话，智能音箱溘然插嘴的情形。

3. 相应韶光

用户说完唤醒词后，到设备给出反馈的韶光差，越快越好。

纯语音唤醒的相应韶光基本都在0.5秒以内，加上语音识别的相应韶光就会比较长，我们下章再谈论。

4. 功耗

唤醒系统的耗电情形，对付电池供电的设备，越低越好。

一样平常插电利用的音箱还好，对功耗的哀求不是很严格。
但是像手机、儿童玩具等产品，由于是电池供电，对功耗的哀求较高。

siri是iphone4s就有的语音助手，但直到iphone6s的时候，才许可不接电源下直接通过语音唤醒siri，当时便是考虑功耗的缘故原由。

六、语音唤醒的其他内容1. 唤醒后的反馈

我们通过唤醒词唤醒设备后，须要一个及时的反馈，来提醒我们唤醒成功，这就要磨练产品的设计功力了。

一样平常会有两个可感知的层面上进行提示，一个是听觉方面，一个是视觉方面（暂不考虑震撼）。

听觉方面的反馈，又分为两种：

语音回答一样平常常见的有“在的”、“嗯嗯”、“来了”等，都是一些简短的回答，表示已经听到。
这几句TTS的内容须要仔细打磨，反复调试，才能达到一个空想的效果，建议不要超过1秒。

声音提示每每是在语音回答之后，提示用户可以进行语音交互了，一样平常都是一个简短的音效，之后就开始收音了。

视觉方面的反馈，也可以分为两种：

灯效反馈常见于智能音箱的产品上面，他们没有屏幕，但是也须要在视觉上提示用户，一样平常不同颜色的灯效，表示机器不同的状态，是有明确的产品定义的。

屏幕反馈可以做的事情就比较多了，可以根据自己产品的需求，设计提示的强度，是弹出浮窗，还是弹出页面，根据不同的运用处景来设计，这里就不展开谈论了。

还有一种情形，中间是不须要反馈的，比如“天猫精灵，打开灯”这样一气呵成的唤醒+交互，我们只须要实行相应的指令，并给出末了实行结果的反馈即可。

2. 自定义唤醒词

随着语音交互的遍及，逐渐衍生出一些个性化的需求，大家开始给自己的设备起一个专属的名字，这便是自定义唤醒词。

自定义唤醒词一样平常会打包成一个输入框供应给用户，用户只须要在框内按照我们的提示填写内容即可，在这里我们可能须要把稳以下几点：

唤醒词要有明确的字数限定，比如3-6个字；须要检测填写的唤醒词是否含有多音字，并进行提示，或支持注音修正；是否更换默认唤醒词，有时须要新加的唤醒词替代默认唤醒词，有时可能是并存的；自定义唤醒词的质量要高，便是前面说过的，相邻的音节要规避，音节要清晰。

3. 功耗和唤醒率的权衡

还有一个技能上面的问题，便是唤醒的效果要在功耗之间达到一个平衡。

一样平常在电池供电的产品上，须要有专门掌握语音唤醒的独立硬件，来平衡效果和功耗，达到一个相对空想的水平。

4. 唤醒模型的动态调度

之前就听说过亚马逊音箱半夜被周围噪音误唤醒，然后给一些莫名其妙的回答。
想想晚上睡着了，然后音箱溘然自言自语，想想就比较胆怯。

为了应对这种问题，我们可以动态调度音箱的唤醒阈值，比如正常的阈值是0.9以上进行唤醒，那么晚上可以根据运用处景，设置为0.8以上唤醒，详细还要看场景和模型的效果。

七、总结

全体过程须要先定义唤醒词，再根据实际场景选择模型，网络数据，末了上线迭代。

随着产品的用户越来越多，演习数据越来越大，全体唤醒模型进入一个正向循环，再考虑支持自定义唤醒词的能力。

语音唤醒作为语音交互的前置步骤，紧张卖力判断什么时候切换为事情状态，什么时候保持休眠状态，而这个判断依据便是语音信息。

本文由 @我叫大家原创发布于大家都是产品经理。
未经容许，禁止转载

题图来自Unsplash，基于CC0协议

标签：唤醒语音

语音交互：从语音唤醒（KWS）聊起

相关文章

1549批次湿巾抽检申报：细菌超标占大年夜头洁柔、植护、润本上榜

售价一个亿！向华强让关之琳试戴最后送给太太的这块表到底是若何的存在？

若何快速查看LED控制卡的型号再也不怕记错了

企业出租遇免租期及跨年房钱申报缴税、发票开具要点一文梳理

冬季电器安然运用手册

用户未赞同不得将快件放进快递柜！治理办法来了

最近发表

两岸大年夜学生“碰撞”公益广告创意

1549批次湿巾抽检申报：细菌超标占大年夜头洁柔、植护、润本上榜

AI产品经理的入门必修课（4）常识图谱

节后开工第一天7折开拍！杭州龙翔桥地铁旁100米一套平易近国历史建筑今起法拍

外贸常识 | EXW含税价若何是组成的

大年夜龙网打造白色家电离岸集采中央落成跨境电商进入集采时代

「手慢无」桌面手机支架8.8元还包邮

江苏中信博新能源科技股份有限公司关于为控股子公司供应担保的通知书记

售价一个亿！向华强让关之琳试戴最后送给太太的这块表到底是若何的存在？

国家推动消费增长扩大内需了。摊开娱乐业才能真正促进消费！

热门文章

标签列表