Meta发布会读唇语的AI 自监督+多模态将有关代码开源至GitHub
发布时间:2022-01-14 16:46 所属栏目:125 来源:互联网
导读:借助读唇语,人类能够更容易听懂他人的讲话内容,那么 AI 也能如此吗? 最近,Meta 提出了一种视听版 BERT,不仅能读唇语,还能将识别错误率降低 75%。 效果大概就像如下这样,给一段视频,该模型就能根据人物的口型及语音输出他所说的内容。 而且与此前同类
借助读唇语,人类能够更容易听懂他人的讲话内容,那么 AI 也能如此吗? 最近,Meta 提出了一种视听版 BERT,不仅能读唇语,还能将识别错误率降低 75%。 效果大概就像如下这样,给一段视频,该模型就能根据人物的口型及语音输出他所说的内容。 而且与此前同类方法相比,它只用十分之一的标记数据,性能就能超过过去最好的视听语音识别系统。 这种结合了读唇的语音识别方法,对于识别嘈杂环境下的语音有重大帮助。 Meta 的研究专家 Abdelrahman Mohamed 表示,该技术未来可用在手机智能助手、AR 眼镜等智能设备上。 Meta 将该方法命名为 AV-HuBERT,这是一个多模态的自监督学习框架。 多模态不难理解,该框架需要输入语音音频和唇语视频两种不同形式内容,然后输出对应文本。 Meta 表示,通过结合人们说话过程中嘴唇和牙齿活动、语音方面的信息,AV-HuBERT 可以捕捉到音频和视频间的微妙联系。 结果表明,AV-HuBERT 经过 30 个小时带有标签的 TED 演讲视频训练后,单词错误率(WER)为 32.5%,而此前方法能达到的最低错误率为 33.6%,并且此方法训练时间高达 31000 个小时。 WER 是语音识别任务中的错误率指标,计算方法为将错误识别单词数除以总单词数,32.5% 意味着大约每 30 个单词出现一个错误。 经过 433 个小时 TED 演讲训练后,错误率可进一步降低至 26.9%。 另一方面,AV-HuBERT 与前人方法最大不同之处在于,它采用了自监督学习方法。 此前 DeepMind、牛津大学提出的方法中,由于需要对数据集打标签,使得可学习的词汇范围受到限制。 AV-HuBERT 在预训练中使用特征聚类和掩蔽预测两个步骤不断迭代训练,从而实现自己学习对标记的数据进行分类。 (编辑:ASP站长网) |
相关内容
网友评论
推荐文章
热点阅读