个推漫话数据智能:《女心理师》中的智能语音识别系统是如何实现的?

近期的很多热播剧都和心理咨询相关,在《女心理师》中,有这样一个数据智能应用,吸引了Mr.Tech的目光。


▲图片来源:优酷网剧《女心理师》

在女主工作的心理救援中心,不仅有酷炫的可视化数据大屏,还有看起来非常高级的智能语音识别系统。这个智能语音识别系统不仅能实时将通话双方的语音内容转译成文本,还能根据通话内容做出预警,帮助心理咨询师做判断和决策,从而更好地实施援助。

这样的“黑科技”具体如何实现呢?接下来,Mr.Tech就为大家图文并茂做深入解读。

第一步:用傅里叶变换将声音信号处理成波数据

众所周知,计算机不能直接对声音文件进行计算和机器学习训练。算法工程师需要对声音文件进行处理,把MP3、MP4等声音文件转化成计算机擅长解决的数学问题。

学过中学物理课,我们都知道,声音的本质是波,频率和振幅是描述声波的两个重要属性。我们将一定时间内声音的振幅和频率做成可视化图表,就能得到声波图。

看到以上的声波图,你想到了什么?是不是和数学里的正弦函数图像长得特别像呢?

Bingo!

智能语音识别第一步要做的,就是选择正确类型的函数来描述不同的声波,然后再将数据交给机器去学习和计算。

理解了这点,你的右脚就已经踏进了智能语音识别科学的大门!

但是,声波是很复杂的。声波是不同频率、不同强度的正弦波的叠加。我们在将声音可视化时,得到的仅仅是叠加合成后的声波图。为了更好地理解声音信号,算法工程师还需要将声波图进行分解。

如下图:

这个将声音信号进行分解(变换)的过程,就是机器学习里经常提到的“傅里叶变换”。

傅里叶变换(Fourier Transform,简称“FT”)是机器学习领域一个很常用的算法,它的作用是对数字信号进行解析,以方便后续进行数据处理。

第二步:对声音进行基础的特征识别

将声音文件解析成声谱图之后,机器就可以对声音进行简单的特征识别和判断,比如发声人的性别、年龄层次等。

我们知道,男性和女性的声音具有非常明显的区别。一般来说,男性声音洪亮,振幅较高,频率较低;女性声音尖细,频率较高,振幅较低。同时,还有一些异常情况,比如大声的呼救、病痛时的呻吟等,也都可以通过频率和振幅来进行刻画描述。

第三步:将语音转化成文本,便于机器学习

《女心理师》中的智能语音识别系统还能将语音内容实时转译成文本,并根据语音内容做出预警提醒。

计算机是如何听懂人类语言的呢?

所谓“人工智能”,其中离不开“人工”的作用。实现智能语音识别的本质其实是将声音波形特征和特定文字一一匹配。这就需要在前期构建语音样本库,由人工对语音样本进行标注,然后抽取出声音波形特征和文字的对应关系,让机器去学习。通过大量的训练、学习,计算机便拥有了将语音转化成文字的能力。

不过,在该阶段,转译后的文字对于计算机而言,就如同“天书”,计算机并不能理解文字中蕴含的涵义,更不能Get到文字中说话人所要表达的情感。

因此,还需要教会计算机听“懂”人话,并使其拥有一定程度的专业知识水平,能够对文本内容进行情感分析和自主推理,从而实现智能预警,更好地辅助研判。

具体如何实现呢?一起来看第四步。

第四步:对文本内容进行情感分析

我们知道,句子由词汇组成,包括停顿词(的、和、地、得、之间……),正面评价词(价格便宜、干净、美丽、物美价廉......),负面评价词(埋汰、脏、差、坏……),程度词(还行、非常好、凑合、一般、特别......),疑问词(难道、岂、居然、竟然、究竟、简直、难道、反倒、何尝、何必......)以及否定词(不、莫、无、弗、非、否......)等等。要理解一句话的情感和态度,就需要对句子中各个词汇的词性进行分析。所以我们需要对上阶段转译好的文本进行分词处理,然后综合每个词的情感倾向最终得出该语句整体的情感态度。

计算机在进行文本的情感分析时,还是要先将其转化为数学问题才能解决。

计算机一般采用如下类型的数学表达式来计算一句话的情感态度:

举个例子,比如在“难道非得让我说差么?” (疑问词“难道”往往和否定词结合起到双重否定的作用,有时人们也会把“难道”单独当成否定词来使用) 这样一句话中,“难道”和“非”都是否定词,所以该句话的整体分值就可以计算出来了,是(-1)^21-1 = -1,那么这句话要表达的就是偏负面的态度。

再比如“难道这样不好吗?”中,“难道”和“不”都是否定词,分值为(-1)^211=1,那这句话的情感就是偏正面的。

一般来说,词汇的情感是偏正面还是负面,在不同的领域有不同的标准和说法。比如,“声音大”,在音响行业,其实就是非常正向的的词汇,但是在家电行业,说一个洗衣机“声音大”,其实表达的是负向的态度。所以,不同行业的算法工程师,都需要构建所属行业或领域的特色词库。

此时再看《女心理师》剧中的智能语音识别系统,就很好理解它的“聪明”所在了。在心理咨询或救援领域,“跳楼”“自杀”这些都是负向词汇,“不用来找我了”这句话中也有否定词“不”。因此当系统判断语音内容非常消极和负面时,就会自动弹出相应警报。


▲图片来源:优酷网剧《女心理师》

看到这步,恭喜你把左脚也踏进了智能语音识别科学的大门!

第五步:构建行业知识图谱

可以看到,上图中的警报弹框中,还有“需要专业支持”的提醒,智能水平较高。其实,在实际生活场景中,很多电商、互联网医疗等行业的企业所建设的智能客服系统,也已经进化到非常高的智能水平了,它们不仅能够理解文本内容,还能自主做推理、联想,提出相关专业建议,辅助决策。

而这个程度的“脑力”实现,使用到的正是知识图谱(Knowledge Graph)的技术。

知识图谱,本质上是一种揭示实体之间关系的语义网络,在搜索引擎、文本挖掘等领域有广泛应用。比如,当用户使用搜索引擎搜索“水果”时,会出现“水果的分类”“水果的营养价值”“最近的水果店在哪里”等关联词条,其背后使用的就是“水果”领域的知识图谱。

我们在实际生活中使用到的智能客服系统,其“智力”也正是来自于对特定行业知识图谱的不断学习。比如,电商平台的智能客服,背后依托的就是商品、订单、物流等方面的知识图谱。当用户咨询某个商品时,智能客服就会调用相关图谱,为用户提供商品详情、订单状态、物流状态、商品历史价格走势、商品使用方式等相关信息和建议。

看完本文,相信大家已经比较深刻理解智能语音识别、知识图谱等的技术原理了。技术不仅是生产力,更是有温度的。在正确的应用姿势下,大数据和人工智能在各行各业都能发挥出巨大的正向价值。作为一家数据智能公司,个推在知识图谱、图挖掘等方面的实践也非常丰富。比如,个推在开展大数据抗疫时,正是基于万亿级图的构建和挖掘,实现了疫情态势研判、传播路径分析等场景应用。

posted @ 2021-12-24 18:55  个推  阅读(241)  评论(0编辑  收藏  举报