知识科普:全面梳理语音交互知识:从原理、场景到走势
发布时间:2021-11-22 11:09 所属栏目:125 来源:互联网
导读:语音交互(VUI)指的是人类与设备通过自然语音进行信息的传递。一次完整的语音交互需要经历ASRNLPSkillTTS的流程: VUI081301 (1)ASR 用于将声学语音进行分析,并得到对应的文字或拼音信息。语音识别系统一般分训练和解码两阶段: 训练即通过大量标注的语
语音交互(VUI)指的是人类与设备通过自然语音进行信息的传递。一次完整的语音交互需要经历ASR→NLP→Skill→TTS的流程: VUI081301 (1)ASR 用于将声学语音进行分析,并得到对应的文字或拼音信息。语音识别系统一般分训练和解码两阶段: 训练即通过大量标注的语音数据训练数学模型,通过大量标注的文本数据训练语言模型; 解码,即通过声学和语言模型将语音数据识别成文字。 声学模型可以理解为是对发生的建模,它能够把语音输入转换成声学表示的输入,更准确的说是给出语音属于某个声学符号的概率。语言模型的作用可以简单理解为消解多音字问题,在声学模型给出发音序列之后,从候选的文字序列中找出概率最大的字符串序列。 (2)NLP 用于将用户的指令转换为结构化的、机器可以理解的语言。NLP的工作逻辑是:将用户的指令进行Domain(领域)→Intent(意图)→Slot(词槽)三级拆分。 以“帮我设置一个明天早上8点的闹钟”为例:该指令命中的领域是“闹钟”,意图是“新建闹钟”,词槽是“明天8点”。这样,就将用户的意图拆分成机器可以处理的语言。 (3)Skill 也即AI时代的APP。Skill的作用就是:处理NLP界定的用户意图,做出符合用户预期的反馈。 (4)TTS 即语音合成,从文本转换成语音,让机器说话。TTS业内普遍使用两种做法:一种是拼接法,一种是参数法。 拼接法即从事先录制的大量语音中,选择所需的基本发音单位拼接而成。优点是语音的自然度很好,缺点是成本太高,费用成本要上百万。参数法指使用统计模型来产生语音参数并转化成波形。优点是成本低,一般价格在20万~60万不等,缺点是发音的自然度没有拼接法好。但是随着模型的不断优化,现在参数法的效果已经非常好了,因此业内使用参数法的越来越多。 (编辑:ASP站长网) |
相关内容
网友评论
推荐文章
热点阅读