asr语音识别技术的发展历程和应用难点

随着技术的发展，asr语音识别技术在多种行业中实现应用，逐渐被大众所熟知，asr语音识别技术的发展历程和应用难点到底是什么呢？本文了解一下。

asr语音识别技术的发展历程

语音识别技术在10年以前是统计模型；10年到20年，运用的模型包括了特征提取、声学模型，语言模型等模块，是一个pipeline的系统，而到了20年以后，end-to-end从输入到输出只用一个算法模型，输入是语音信号，输出就是最终的词序列的结果，也叫做端到端技术；另外这一阶段也将图像、翻译技术融入到语音识别中，满足多种场景的需求。

另外模型训练方面，其模型分为通用领域和垂直领域两种。近年来，根据语音识别在不同场景中的应用效果显示，通用模型识别准确率远低于垂直模型的识别准确率，所以许多相关技术公司都在转向垂直领域的模型训练。

asr语音识别技术应用中遇到的难点

在自动语音识别应用场景中，那句“抱歉，我听不懂您在说什么”或者“不好意思，请您再重复一遍”大概是所有使用者以及开发者的噩梦吧。这两句话代表的对话的失败，而导致这种问题出现的原因大概是以下几个方面，这也是ASR技术在落地应用中需要克服的难点问题。

asr语音识别技术的发展历程和应用难点-小鲸云呼

1、噪音问题

在实际应用中，用户在于语音机器人沟通的过程中，所处的空间是具备多样性的。比如外卖员、快递员在送货的过程中，会有风噪声、喇叭噪声、行驶声等，这对于语音识别就会有一定的影响，比如大促期间，顾客在地铁上、超市中的声音也会对语音识别构成影响

2、口音问题

口音问题包含方言以及口音不准的问题。所谓“十里不同音，百里不同俗”。作为一个幅员辽阔的多民族国家，我国56个民族使用的语言分属五大语系，共有80种以上语言。其中，汉语的使用人数最多，分为标准语（普通话）和方言。汉语方言通常分为十大方言，各方言区内，又分布着若干次方言和许多种土语。部分方言之间差异很大，无法通话。为了消除语言隔阂，国家在全社会大力推广普通话。然而，来自天南海北的人们，又赋予普通话五花八门的口音。而对于语音识别来说，这就是一个极其困难的事情。

3、实体识别

通俗来说，语音识别模型就是一个概率模型，当语音传入语音识别模型中，输出为日常生活中常用到的词语与句子的概率是高于其他稀疏词的，日常生活中人名、地名、机构名、专有名词、药名等，这种在不常用到，所以输出为它本身的人名、地名的概率比较小，因此对这些词的识别准确率是决定该模型识别准确率高低的关键因素。

基于自研原心引擎语音语义融合方案，打通业务领域数据，实现业务定制化的效果体验，自然场景识别率超过95%，个性化词汇识别超过97%，同时为语义模块提供丰富的识别结果输出,使语义识别率提升5个点以上采用国际前沿的端到端语音语义一体化建模算法，将语音快速准确识别为文字，支持一句话识别、语音内容分析、机器人对话、智能质检等多个场景。

产品服务

产品服务

产品服务

产品服务

场景应用

行业方案

关于我们

新闻资讯

沟通创造价值

asr语音识别技术的发展历程和应用难点

相关文章

最新文章

产品中心

解决方案

服务支持

关于我们