Meta发布会读唇语的AI 自监督+多模态将有关代码开源至GitHub

发布时间：2022-01-14 16:46 所属栏目：125 来源：互联网

导读：借助读唇语，人类能够更容易听懂他人的讲话内容，那么 AI 也能如此吗? 最近，Meta 提出了一种视听版 BERT，不仅能读唇语，还能将识别错误率降低 75%。效果大概就像如下这样，给一段视频，该模型就能根据人物的口型及语音输出他所说的内容。而且与此前同类

　借助读唇语，人类能够更容易听懂他人的讲话内容，那么 AI 也能如此吗?

　　最近，Meta 提出了一种视听版 BERT，不仅能读唇语，还能将识别错误率降低 75%。

　　效果大概就像如下这样，给一段视频，该模型就能根据人物的口型及语音输出他所说的内容。

　　而且与此前同类方法相比，它只用十分之一的标记数据，性能就能超过过去最好的视听语音识别系统。

　　这种结合了读唇的语音识别方法，对于识别嘈杂环境下的语音有重大帮助。

　　Meta 的研究专家 Abdelrahman Mohamed 表示，该技术未来可用在手机智能助手、AR 眼镜等智能设备上。

　　Meta 将该方法命名为 AV-HuBERT，这是一个多模态的自监督学习框架。

　　多模态不难理解，该框架需要输入语音音频和唇语视频两种不同形式内容，然后输出对应文本。

　　Meta 表示，通过结合人们说话过程中嘴唇和牙齿活动、语音方面的信息，AV-HuBERT 可以捕捉到音频和视频间的微妙联系。

　　结果表明，AV-HuBERT 经过 30 个小时带有标签的 TED 演讲视频训练后，单词错误率(WER)为 32.5%，而此前方法能达到的最低错误率为 33.6%，并且此方法训练时间高达 31000 个小时。

　　WER 是语音识别任务中的错误率指标，计算方法为将错误识别单词数除以总单词数，32.5% 意味着大约每 30 个单词出现一个错误。

　　经过 433 个小时 TED 演讲训练后，错误率可进一步降低至 26.9%。

　　另一方面，AV-HuBERT 与前人方法最大不同之处在于，它采用了自监督学习方法。

　　此前 DeepMind、牛津大学提出的方法中，由于需要对数据集打标签，使得可学习的词汇范围受到限制。

　　AV-HuBERT 在预训练中使用特征聚类和掩蔽预测两个步骤不断迭代训练，从而实现自己学习对标记的数据进行分类。

（编辑：ASP站长网）