【愚公系列】《人工智能70年》020-语音识别的历史性突破(深度学习带来历史性突破)
摘要 深度学习技术彻底改变了语音识别领域的发展轨迹。2006年,杰弗里·辛顿的论文启发了微软的邓力团队,推动微软在2012年提出CD-DNN-HMM架构。谷歌紧随其后,2012年率先在产品中应用深度学习技术。产业竞争白热化:微软2016年实现对话语音识别人类水平,百度则早在中文语音识别取得突破。这种技术革新重塑了行业格局,Nuance等传统技术公司迅速式微,数据资源和场景应用能力成为新的竞争焦点。
💎【行业认证·权威头衔】
✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家
✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主
✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者
🏆【荣誉殿堂】
🎖 连续三年蝉联"华为云十佳博主"(2022-2024)
🎖 双冠加冕CSDN"年度博客之星TOP2"(2022&2023)
🎖 十余个技术社区年度杰出贡献奖得主
📚【知识宝库】
覆盖全栈技术矩阵:
◾ 编程语言:.NET/Java/Python/Go/Node…
◾ 移动生态:HarmonyOS/iOS/Android/小程序
◾ 前沿领域:物联网/网络安全/大数据/AI/元宇宙
◾ 游戏开发:Unity3D引擎深度解析
文章目录
🚀前言
人类拆掉语言樊篱的伟大 AI工程,有三块重要基石。
🚀一、深度学习带来历史性突破
在学术界不断寻求理论突破、产业界迫切希望打破技术垄断的期待中,自2006年起,一个彻底改变语音识别领域格局的关键力量出现了——它就是深度学习,或者说,深度神经网络。
那年的一天,在西雅图微软研究院任职的华人科学家邓力读到了杰弗里·辛顿(Geoffrey Hinton)发表的一篇论文《关于深度置信网络的一种快速学习算法》。他眼前一亮,发现自己长期以来未能解决的难题,竟被辛顿以如此清晰的方式破解。邓力本科毕业于中国科技大学,后赴美深造获博士学位,当时在微软领导语音识别研究小组。在深度学习兴起之前,他已尝试过包括人工神经网络和贝叶斯统计模型在内的多种方法,但进展有限,而辛顿的工作为他指明了新的方向。
邓力与辛顿早有渊源——20世纪90年代初,当邓力在加拿大滑铁卢大学任教授时,就曾邀请辛顿担任其博士生的论文答辩评审。2009年,邓力特意邀请辛顿来访微软研究院进行深入交流,自此,微软语音识别研究全面转向深度学习轨道。
2012年,邓力与俞栋等人在微软研究院提出了“上下文相关深度神经网络–隐马尔可夫模型”(CD-DNN-HMM)这一融合架构,显著提升了语音识别系统的性能。两人合著的《解析深度学习:语音识别实践》也成为多国高校语音处理相关课程的经典教材。因贡献卓著,邓力于2016年升任微软首席人工智能科学家,并于2019年当选加拿大工程院院士,被公认为推动深度学习应用于语音识别领域的里程碑人物。
谷歌在深度学习应用于语音识别方面虽起步稍晚,但进展迅猛。据出门问问公司CTO雷欣回忆,2011年夏季,辛顿的博士生纳瓦迪普·杰特列(Navdeep Jaitly)在谷歌语音识别组实习期间,首次提议以深度神经网络替代传统的高斯混合模型构建声学模型。在短短实习期内,他的实验取得了显著优于谷歌原系统的识别效果。谷歌工程师迅速推进该研究的工程化与产品化,于2012年初将其集成至谷歌语音搜索(Google Voice Search)主产品中,成为业界首次在大词汇量语音识别产品中成功应用深度学习技术的案例。同年下半年,雷欣负责将深度神经网络推广至Android JellyBean系统,这也是嵌入式语音识别产品中首次引入深度学习。
微软在语音识别领域不断实现突破。2016年10月18日,由微软首席语音科学家黄学东博士领导的团队,在权威的Switchboard语音识别基准测试中实现了词错率5.9%的成果,首次达到人类专业速记员水平,被广泛认为是人工智能发展史上的一项重大突破。黄学东自豪地宣布:“这是第一次,计算机在对话语音识别中达到了与人类相当的水平。”
面对微软的成果,百度首席科学家吴恩达立即在推特上表示祝贺,同时不失时机地指出百度早在一年前已在中文语音识别方面取得突破——百度的Deep Speech2在短语识别任务中词错率已降至3.7%,同样达到人类水平。微软则回应称,对话语音识别相较于短语识别技术挑战更大,二者难度不可同日而语。这一你来我往的交锋,反映出科技巨头对深度学习应用于语音识别的高度重视,也体现出语音识别已步入历史性跨越的阶段。
随着深度学习技术的普及,语音识别领域的产业格局被彻底重塑。美国短时间内涌现出数十家专注于深度学习语音识别技术的公司,识别准确率不断提升并逐渐趋同。与此同时,传统依靠专利和算法建立壁垒的模式式微,场景应用能力与客户数据资源成为竞争核心。曾凭借核心技术垄断语音识别市场多年的Nuance公司,地位迅速瓦解,业绩持续下滑,屡次陷入被收购的传闻,标志着以深度学习为代表的新技术彻底改变了语音识别的技术范式与商业生态。
更多推荐
所有评论(0)