基于ASR语音识别的智慧医疗应用场景解析及构建经验


语音交互、计算机视觉、认知计算等技术蓬勃发展,助推医疗领域的快速突破。


借助语音交互技术的电子病历系统将实现高效诊疗和数据共享,基于其语音技术的解决方案在美国医疗机构中覆盖率超过72%,每年帮助美国医生记录一亿病人的数据,语音识别准确率高达99%。


我国从2016年前后已开始逐步试点落地医疗语音识别技术,科大讯飞至今已与301医院、瑞金医院、北京大学口腔医院、安徽省立医院等实施合作协议。“基于语音的门诊病历采集系统”是讯飞医疗智能语音的主要产品之一,其产业规模及市场占有率位居全国首位。语音交互、计算机视觉、认知计算等技术蓬勃发展,助推医疗领域的快速突破。语音交互、计算机视觉、认知计算等技术蓬勃发展,助推医疗领域的快速突破。




目录:


01  什么是ASR,它是如何工作的?


02  ASR语音识别在智慧医疗领域中的应用有哪些?

03  一些ASR系统构建的经验分享





什么是ASR,它是如何工作的?

语音识别(Automatic Speech Recognition),一般简称ASR,就是将一段语音信号转换成相对应的文本信息,系统主要包含特征提取、声学模型,语言模型以及字典与解码四大部分,其中为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等预处理工作,把要分析的信号从原始信号中提取出来;之后,特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量;声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率;最后根据已有的字典,对词组序列进行解码,得到最后可能的文本表示。

语音识别原理流程:“输入——编码——解码——输出”



语音识别,大体可分为“传统”识别方式与“端到端”识别方式,其主要差异体现在声学模型上。“传统”方式的声学模型一般采用隐马尔可夫模型(HMM),而“端到端”方式一般采用深度神经网络(DNN)。

语音识别的应用,就这么简单?不是的,在实际场景,有很多种异常情况,都会导致语音识别的效果大打折扣,比如距离太远了不行,发音不标准不行,环境嘈杂不行,想打断也不行,等等。所以,还需要有各种解决方案来配合。那么我们来看看这个语音识别在医疗领域应用有什么?




ASR语音识别在智慧医疗领域中有哪些应用?



电子病历与检查报告智能语音录入 -与门诊、住院医生工作站,医技报告工作站等集成,将医生说话内容转录成文字信息录入门诊病历、住院病历、检查报告等文本输入位置。语音录入系统功能支持插入、修改、删除等常规编辑命令,也支持部分复杂的操作,如光标移动、换行、撤销等。

移动护理智能语音录入-与移动护理工作站集成,通过PDA,护士在床旁说话内容将转录成文字信息录入护理信息系统中。大量文本信息录入与电子病历、检查报告录入功能相似,同时,支持护理类表格信息的智能化填入,例如血压、脉搏、呼吸等数据。

非接触式智能语音数据交互-在非接触的医疗环境下,通过语音实现非接触式数据获取。临床医生、科研工作者或者正在手术的医生通过口述检索条件,系统获取特定参数,与各工作站进行交互,获得满足检索条件的相关数据,包括患者基本信息、检查、检验、医嘱、影像等。





一些ASR系统构建经验分享


经验#1

为了使医护人员所读的识别出来的词序列和标准的词序列之间保持一致,降词次错误率。所以我们在选择对接厂商的时候需要站在纯产品体验角度去判别词/句错误率是否能被商用。

     经验#2


医护人员在远近场识别场景,比如使用语音输入法时,用户可以用手按着语音按键说话,结束之后松开,由于近场情况下信噪比(signal to noise ratio, SNR)比较高,信号清晰,简单算法也能做到有效可靠。但远场识别场景下,用户不能用手接触设备,这时受噪声影响比较大,SNR较低,必须使用VAD了。


    经验#3

关于唤醒,什么时候医护人员才能通知机器开始语音识别,那么在近场识别时,用户可以点击按钮后直接说话,但是远场识别时,需要在VAD检测到人声之后,进行语音唤醒,相当于叫这个AI(机器人)的名字,引起ta的注意,比如苹果的“Hey Siri”,唤醒你的苹果手机后,语音收录便开始了,但是在唤醒方面我们需要注意的是功耗、唤醒率以及误唤醒。

因为这些都会影响工作的进度和医护人员的用户体验感。


    经验#4 


在诊室、放射、b超室、等各种复杂环境下,会有噪音、混响、人声干扰、回声等各种问题。特别是远场环境,要求拾音麦克风的灵敏度高,这样才能在较远的距离下获得有效的音频振幅,同时近场环境下又不能爆音(振幅超过最大量化精度)。

整体来说,远场语音识别时,需要前后端结合去完成。一方面在前端使用麦克风阵列硬件,对声源定位并通过自适应波束进行语音增强,在前端完成远场拾音,并解决噪声、混响、回声等带来的影响。另一方面,由于近场、远场的语音信号,在声学上有一定的规律差异,所以在后端的语音识别上,还需要结合基于大数据训练、针对远场环境的声学模型,才能较好解决识别率的问题。


    经验#5

在传统的语音唤醒方案中,是一次唤醒后,进行语音识别和交互,交互完成再进入待唤醒状态。但是在实际患者与医护的交流中,人是可以与多人对话的,而且支持被其他人插入和打断。这种情况下一般采用全双工的做法来区分声源。

例如:参考打电话,A:您好,balabala……;B:balabala……



-END-


- PmSummit往期精选 -


重点】智慧医院:医疗云HIS
重点】智慧医院:基于vidyo的远程会诊
重点】智慧医院:基于HIE技术的医疗云影像平台
重点AI医疗场景化业务:如何用AI技术做食管癌识别和辅助诊断?

 重点基于NLG(自然语言生成)的智慧医疗应用场景和系统构建经验


Rolia
联合创始人&产品总监 · 前海康博士
认可他 2