97之后百度再寻语音突破口

2019-05-14 19:09:46 来源: 阿勒泰信息港

近日,百度在语音识别技术方面再获突破,将图象识别技术成功跨界到语音领域,利用深层卷积神经络(Deep CNN)应用于语音识别声学建模中,将其与基于长短时记忆单元(LSTM)和连接时序分类(CTC)的端对端语音辨认技术相结合,错误率相对降低10%,大幅度提升语音辨认产品性能,是继端对端语音识别后取得的另外一次重大技术突破。

Deep CNN语音辨认的建模进程

近年来,运用CNN技术的图像识别成果颇丰,越来越深的CNN不断刷新着图像辨认的度,以人脸辨认为例,辨认准确率高达99.7%。但CNN的进展在语音识别方面没有得到充分的运用。作为一家在语音技术上有着深入研究的人工智能公司,百度将Deep CNN视为语音识别技术的下一个突破口。

ImageNet比赛中,越来越深的CNN不断刷新着其性能

在商用领域的端对端语音辨认技术中,百度首次尝试引入更深层的CNN神经络,使错误率相对下降10%。端对端技术则使用一个单独的学习算法来完成从任务输入端到输出端的所有进程,减少了中间单元和人为干预,在海量数据的支持下模型效果提升明显。目前,百度的端对端技术处于业界水平。值得一提的是,语音识别都是基于时频分析后的语音谱完成的,将整个语音信号分析得到的时频谱当作一张图象,就可以采用图像中已广泛应用的CNN进行识别,克服了语音信号多样性的问题,且通过引入更深层的CNN,使语音识别性能得到显著提升,正如百度语音技术部识别技术负责人李先刚博士所言:The Deeper,The Better。

与学术研究不同,百度语音的研发立足点,聚焦于技术的实际运用,技术难度和实现程度更高。针对语音识别产品而言,必须具备在大规模语音数据库上体现性能提升和具有适合语音识别产品运行的模型。百度采用数千小时进行实验的研究,并在近十万小时的产品语音数据库中进行验证,且充足的语音数据资源,使基于端对端技术的语音识别系统明显优于以往的框架性能。

百度语音辨认技术每年迭代算法模型

除此之外,百度语音技术在数据、计算能力、算法等三方面优势显著。百度具有约10万小时的标注语音数据,以及基于数百个GPU的高性能计算平台。在算法方面,百度每年都在不断优化、迭代模型算法,语音辨认效果显著提升,业界。

此前,百度便利用端对端技术研发了Deep Speech 2深度语音识别技术,用于提高在嘈杂环境下语音识别的准确率。在噪音环境下,其错误率低于谷歌、微软以及苹果的语音系统。目前,百度语音识别准确率高达97%,并被美国权威科技杂志《麻省理工评论》列为2016年十大突破技术之一。另据李先刚博士泄漏,目前的确正在抓紧Deep Speech 3 的研发工作,而本次公布的Deep CNN不排除将会是Deep Speech 3的核心组成部分。

除了技术突破,百度还积极推动用户使用语音交互的普及,百度、百度输入法、百度地图、度秘等产品都已支持语音输入功能,而此次跨界的Deep CNN相信很快会应用到具有庞大用户体量的百度产品中。

产后预防感染什么药好
经期不准该怎么办
经血不畅用什么药
本文标签: