知识科普：全面梳理语音交互知识：从原理、场景到走势

发布时间：2021-11-22 11:09 所属栏目：125 来源：互联网

导读：语音交互（VUI）指的是人类与设备通过自然语音进行信息的传递。一次完整的语音交互需要经历ASRNLPSkillTTS的流程： VUI081301 （1）ASR 用于将声学语音进行分析，并得到对应的文字或拼音信息。语音识别系统一般分训练和解码两阶段：训练即通过大量标注的语

语音交互（VUI）指的是人类与设备通过自然语音进行信息的传递。一次完整的语音交互需要经历ASR→NLP→Skill→TTS的流程：

VUI081301

（1）ASR

用于将声学语音进行分析，并得到对应的文字或拼音信息。语音识别系统一般分训练和解码两阶段：

训练即通过大量标注的语音数据训练数学模型，通过大量标注的文本数据训练语言模型；

解码，即通过声学和语言模型将语音数据识别成文字。

声学模型可以理解为是对发生的建模，它能够把语音输入转换成声学表示的输入，更准确的说是给出语音属于某个声学符号的概率。语言模型的作用可以简单理解为消解多音字问题，在声学模型给出发音序列之后，从候选的文字序列中找出概率最大的字符串序列。

（2）NLP

用于将用户的指令转换为结构化的、机器可以理解的语言。NLP的工作逻辑是：将用户的指令进行Domain（领域）→Intent（意图）→Slot（词槽）三级拆分。

以“帮我设置一个明天早上8点的闹钟”为例：该指令命中的领域是“闹钟”，意图是“新建闹钟”，词槽是“明天8点”。这样，就将用户的意图拆分成机器可以处理的语言。

（3）Skill

也即AI时代的APP。Skill的作用就是：处理NLP界定的用户意图，做出符合用户预期的反馈。

（4）TTS

即语音合成，从文本转换成语音，让机器说话。TTS业内普遍使用两种做法：一种是拼接法，一种是参数法。

拼接法即从事先录制的大量语音中，选择所需的基本发音单位拼接而成。优点是语音的自然度很好，缺点是成本太高，费用成本要上百万。参数法指使用统计模型来产生语音参数并转化成波形。优点是成本低，一般价格在20万~60万不等，缺点是发音的自然度没有拼接法好。但是随着模型的不断优化，现在参数法的效果已经非常好了，因此业内使用参数法的越来越多。

（编辑：ASP站长网）