谷歌的 deepmind 人工智能公司与牛津大学正在合作一个项目,研发一个具有读唇语功能的人工智能系统。他们从选取了英国 bbc 的近 5000 个小时的电视节目,为这个 ai 系统提供数据库进行读唇语测验,这些电视节目包括《晚间新闻》《bbc 早餐和提问时间》等,总共包含了 118000 个句子。只需要识别说话人的嘴唇部位,该系统就能准确地破译整个句子。在破译从数据库中随机选择的 200 个片段的测验中,ai 唇读系统打败了专业的唇读者。专业唇读者的准确率只有 12.4%,而 ai 系统的准确率为 46.8%。
两周前,牛津大学研发了一个类似的唇读系统 lipnet,但这个系统的数据库 grid 只含有 51 个单词,而这次与谷歌 deepmind 合作研发的 ai 系统所采用的数据库含有近 17500 个单词,这是一个很大的进步。而且,grid 数据库中的句子语法也十分单一,比较容易识别,但谷歌 deepmind 的 ai 系统的数据库来自真实的人类语句,语法更加多样和复杂。谷歌的 deepmind 公司和牛津大学称将开放其数据库资源,这样 lipnet 系统也可以利用它进行试验。