设为首页 - 加入收藏 ASP站长网(Aspzz.Cn)- 科技、建站、经验、云计算、5G、大数据,站长网!
热搜: 数据 手机 公司
当前位置: 首页 > 站长资讯 > 外闻 > 正文

谷歌开发音频生成模型 创造好像真实声音的AI语音

发布时间:2022-10-11 09:53 所属栏目:16 来源:互联网
导读:目前,AI 可以生成多种形式的高质量内容,包括文字(OpenAI 的 GPT 3)、图片(谷歌的 Imagen)、视频(Meta 的 Make-A-Video)等。 AI 生成的音频其实很常见,像生活中用到的语音助手使用自然语言处理声音。OpenAI 曾开发名为 Jukebox 的 AI 音乐系统也令人
  目前,AI 可以生成多种形式的高质量内容,包括文字(OpenAI 的 GPT 3)、图片(谷歌的 Imagen)、视频(Meta 的 Make-A-Video)等。
 
  AI 生成的音频其实很常见,像生活中用到的语音助手使用自然语言处理声音。OpenAI 曾开发名为 Jukebox 的 AI 音乐系统也令人印象深刻。
 
  但过去用 AI 生成音频,大都需要人们提前准备转录和标记基于文本的训练数据,这需要耗费极大时间和人力。
 
  谷歌还展示 AudioLM 的一般适用性,在被要求继续语音或音乐,并生成在训练期间未看到的新内容时,AudioLM 实现了效果流畅、风格接近的音频生成。
 
  特别是,使用 AudioLM 生成的钢琴音乐比使用现有 AI 技术生成的钢琴音乐听起来更自然,后者感觉往往很混乱。
 
  为了生成逼真的钢琴音乐,AudioLM 必须在钢琴键被击中时捕捉每个音符中包含的许多微妙的振动,生成的音乐还必须在一段时间内保持其节奏与和声。
 
  对此,在卡内基梅隆大学研究计算机生成音乐的教授罗杰·丹嫩伯格(Roger Dannenberg)对媒体提到,AudioLM 在重新创造人类音乐中固有的一些重复模式方面出奇地擅长,或表明它正在学习某种结构的多个层次。
 
  AudioLM 经过训练,可以了解哪些类型的声音片段经常一起出现,并且反向使用该过程来生成句子。除了音乐,它还可以模仿原始说话者的口音和节奏,并能学习口语中固有的停顿和感叹等特点。经测试,AudioLM 生成的语音与真实语音几乎无法区分。
 
  据了解,AudioLM 远远超出了语音的范围,可以模拟任意音频信号。这可方便扩展到其他类型的音频,以及将 AudioLM 集成到编码器-解码器框架中,以执行文本到语音转换或语音到语音转换等条件任务。
 
  然后,更自然的语音生成技术,可以用作视频和幻灯片的背景音轨,帮助改善在医疗等环境下工作的可访问性工具和机器人。

(编辑:ASP站长网)

    网友评论
    推荐文章
      热点阅读