谷歌再次震惊世界：推出AI唇读系统玩爆唇读专家

时间：2016/12/23 13:10:45 点击：

　　核心提示： 　　唇读，人们根据别人的口型和当时的语境、表情来猜测他要说什么，这是一项非常微妙和精湛的技艺。但是，连人类如此复杂高超的能力，人工智能都学会了。未来，还有什么是人类有，而人工智能没有的吗?人工智能抢...

　　唇读，人们根据别人的口型和当时的语境、表情来猜测他要说什么，这是一项非常微妙和精湛的技艺。但是，连人类如此复杂高超的能力，人工智能都学会了。未来，还有什么是人类有，而人工智能没有的吗?人工智能抢人类饭碗的趋势已经越来越明显，而且一出手就比该行业的专家们都做的好。

　　谈AI，主角通常而言都是行业大佬——谷歌，谷歌DeepMind。这次他们与英国牛津大学合作，通过机器学习大量的 BBC 节目，来学习一项全新的技能：唇读术。可怕的是，人工智能不仅学会了，而且让唇读专家们自愧不如。

　　AI 系统的学习对象是近 5000 小时的 BBC 各类节目，包括 Newsnight、BBC Breakfast、Question Time 等，所有视频资料加起来约有 11.8 万句话。

　　谷歌DeepMind 和牛津大学的联合研究团队使用了 2010 年 1 月至 2015 年 12 月间的电视节目素材对 AI 系统进行训练，然后使用 2016 年 3 月- 9 月间播出的节目进行 AI 性能测试。

　　BBC节目数据库。从左至右分别为：频道、节目名称、小时数、句数

　　通过观察节目中说话者的唇形，AI 系统可以准确解读出文字，比如下面这些比较“拗口”的句子：“我们知道也将有上百位记者会出席”(We know there will be hundreds of journalists here as well)，以及“根据国家统计局的最新统计数据”(According to thelatest figures from the Office of National Statistics)。

　　DT 君试读了以上英文语句，发现唇形变化其实并不明显，而且电视节目中的语速是非常快的，难度可想而知。

　　AI能力再升级

　　测试结果的具体数据可能更能说明问题：在 2016 年 3 月-9 月的节目库中随机选取的 200 个说话场景唇读对比测试中，人类专家的完全准确率为12.4%，而AI的完全准确率为46.8%。

　　而且 AI 所犯错误中有很多其实无关紧要，比如在复数后面漏掉一个“s”之类。不过哪怕是这样，AI 还是完虐了人类唇读专家。

　　人工智能业内专家称，“这绝对是建构全自动唇读系统的第一步!现有的各类庞大数据库完全可以支持深度学习技术的发展。”
上方彩色图片为BBC节目数据库原始静态图片，下方黑白图片为两个不同的人说出“afternoon”(下午)这个单词时的唇型