如果你不喜欢收听微信的语音信息,可能也会因此试用过微信的语音转文字功能。如果对方普通话标准,识别出来的内容还算是能够理解,这还得归功于腾讯在语音识别等人工智能(AI)方面的研究。
如今,为了进一步“升级”技能,腾讯更是从微软挖来一位在语音识别与深度学习领域的专家——俞栋。作为腾讯 AI Lab 副主任,俞栋将管理新成立的美国西雅图 AI 实验室,负责推动腾讯在语音识别及自然语言理解等 AI 领域的基础研究。
加入腾讯前,俞栋担任微软研究院语音和对话组(Speech and Dialog Group)首席研究员。
他是 2011 年发布的论文《Conversational Speech Transcription Using Context-Dependent Deep Neural Networks(使用上下文相关深层神经网络进行交谈语音转写)》的主要研究人员。
该论文提出了基于人工神经网络的语音识别新方法,实验结果证明,这种新方法大幅降低了语音识别的错误率,将沉寂多年的人工神经网络再次引入语音识别研究领域,开启了语音识别的深度学习时代。
这项工作(将深度学习的方法引入语音识别领域)一开始受到很多怀疑,很多同事或者朋友都经历过 80 年代末 90 年代初,神经网络从高潮跌落到低潮的过程,所以他们都对此有一定的怀疑。
俞栋回顾道,但在两年后,许多公司却开始重复他们的研究工作,并发现那对识别率有很大帮助。随后,通过深度学习,微软团队在语音识别上也在不断突破:
2016 年 9 月中旬,微软报告了在语音识别方面取得的新里程碑:在 Switchboard 这一电话交谈基准测试集上新系统的识别词错率降至 6.3%;一个月后,微软又公布了在这一基准测试集上成功实现了历史性突破:他们的语音识别系统词错率(WER)和专业转录员相当甚至更低,达到 5.9%。
当被问及为何会选择和腾讯合作,俞栋表示,他认为腾讯在研究语音识别方面有自己的优势:腾讯具有大数据来源,同时也具备运算能力,有出口形成反馈机制进而优化产品,有落地的嘲。与之同时,腾讯还能满足他更偏向研究的喜好。
更偏研究的西雅图实验室
在 2016 年 4 月,腾讯正式成立 AI Lab,旨在推进人工智能技术研究,且发展相关应用嘲。
AI Lab 聚焦四大领域的基础研究,包括:计算机视觉、语音识别、自然语言处理与机器学习。并将相关技术应用于具有腾讯特色的四大业务嘲中的应用能力:内容 AI、社交 AI、游戏 AI 和平台工具 AI。
深圳 AI Lab 注重将基础研究结果和应用嘲快速结合。相比之下,由俞栋带领的西雅图 AI Lab 将承担一些语音识别和 NLP 的基础和前沿研究工作,并试图解决这些领域更困难的问题。
虽然这个研究方向下,研究结果和实际应用结合过程可能会比较漫长,但语音识别的基础性研究与腾讯重社交和交互的业务来说非常重要,无论是游戏、微信、QQ、物联网等,都可用上语音识别。因此这次布局也是战略之举。
如果要在技术研究上取得突破,确实需要有一定耐心,相对来说长期稳定的投入,西雅图这边基本上秉持这样的理念。
我们希望长远来讲,能够创新性地攻克关键的、主要的技术难题,在真实应用嘲里有很大的性能提升。但是因为我们没有办法预测到底哪天能成功,我们希望在每一个阶段都会有一些进步,这是我们 可以定义的一些进步,但是这个进步会有多大,也是没有办法比较明确说出来的。
俞栋如此说道。而作为西雅图实验室负责人的 任务,俞栋目前正在招揽团队成员中。
投稿邮箱:chuanbeiol@163.com 详情请访问川北在线:http://www.guangyuanol.cn/