目前中国智能语音产业的格局、现状
(1)智能语音行业涉及的技术、存在的显著问题及针对这些问题可采取的手段
其中,有两项重要的技术:语音识别、自然语言处理,还有一些细节的技术应用,如说话人识别、语种识别、语音合成、音色转换、语音增强、语音唤醒、声源定向等,这些都是在语音处理方向要使用到的支撑技术。就语音识别来说,目前存在的显著问题就是:识别的鲁棒性问题,这个语音系统的在扰动或存在不确定的因素的情况下,仍具有原有特性的,这是主要解决的问题。其处理过程有:语音信号处理、静音切除、声学特征提取、模式匹配等。处理中存现在的限制因素有:远场、方言、噪音、断句等,都会使得准确率降低。针对这些问题,可以从技术和产品两个方面进行优化。技术的角度:语音增强、麦克风阵列、说话人分离等技术作为主要的投入点,依托于成熟算法的基础上,并要提高语义的理解,对上下文的理解。产品上:产品设计上进行优化,通过进一步交互,使语音识别更为准确。
(2)智能语音的两大应用领域及语音语义类公司的类别划分
有两大应用:即C端和B端,在C端要做的就是要提升客户体验,更加人性化的服务于客户(移动设备、汽车、家居);在B端,要提升效率,采用智能化的处理方法解决效率问题。由于这两大领域要解决的问题不同,面对的挑战也不尽相同。在语音行业,从业务和规模来看,语音语义类公司大致可分为3类,第一类大型互联网公司,第二类行业技术巨头、第三类为创业公司。大型互联网公司:语音处理中的NLP技术是搜索引擎的关键技术之一,以百度、腾讯、搜狗为主力,但是互联网公司擅长直接服务用户,因此不会轻易涉足教育、金融等传统垂直行业,而是会把重心放在消费类产品和应用上。第二类为技术巨头:Nuance(国外的)、科大讯飞、捷通华声。第三类为技术类创业公司:云之声、图灵机器人、思必驰、中科信利、中科模识等。那么在智能客服领域较早且具有重要地位的公司有:小i机器人、捷通华声、图灵机器人、智齿科技、蓦然认知、UDesk。
捷通华声的智能语音分析系统就通过将语音数据转化为文本,而后建立语义索引、自动提取特征关键词,再对文本数据进行自动分类,生成结构化的客服大数据,为银行等金融机构提供客服质检、大数据挖掘与分析服务。
(3)中国智能语音产业的格局
目前,在智能语音领域,除了科大讯飞有着多年的技术积累,在某些前沿技术上已经达到领先水平,其他互联网公司和创业公司在技术上没有本质的差别,技术本身已经不足以成为其核心竞争力,大多数公司很难单纯依赖技术建立成熟可靠的商业模式。要想更好地实现商业化,这些公司只能通过往上下游延伸来创造价值。上游可以把语音和搜索引擎结合起来,为垂直行业提供内容和服务,下游可以把语音和硬件产品相结合,依靠产品销售实现营收。教育、金融、客服等领域需要和行业高度定制,大型互联网公司不会轻易涉足,因此会成为技术类公司的主要阵地。而在智能车载、智能家居、智能机器人等领域,技术类创业公司需要面对互联网公司的竞争。