合集-语音识别

摘要:当前参与交付的语音识别产品服务,算法模块基于经典的Kaldi,算法中的一部分运行在GPU之上。 算法团队采用的是声学模型+语言模型的1-pass方案。这个方案的特点在于,语言模型数据文件(HCLG文件)的大小,和训练语料的丰富程度正相关,即语言文本的语料越多,经过训练、转换后得到的语言模型文件越大。 阅读全文
posted @ 2024-01-03 22:06 jackieathome 阅读(157) 评论(0) 推荐(0) 编辑
摘要:本文深入探讨语音识别处理环节。 本阶段的重点特性为语音识别、VAD、热词、文本的时间偏移、讲话人的识别等。 语音识别 业界流派众多,比如Kaldi、端到端等,具体选择哪一种,需要综合考虑人员能力、训练数据量和质量、硬件设施、交付周期等,作出相对合理的交付规划。 基于Kaldi的方案,优点在于其发挥稳 阅读全文
posted @ 2023-12-29 20:44 jackieathome 阅读(130) 评论(0) 推荐(0) 编辑
摘要:准备工作 安装构建时依赖的基础软件 软件清单如下: bzip2 python3 automake libtool cmake gcc g++ gfortran git subversion 不同平台安装软件的方式不同,比如可以使用yum或者apt-get等。 下载开源软件 软件清单如下: Libun 阅读全文
posted @ 2023-12-29 22:01 jackieathome 阅读(187) 评论(0) 推荐(0) 编辑
摘要:分析Google、讯飞、百度、阿里、QQ、搜狗等大厂的ASR服务,可以罗列出一款ASR服务所需要具备的能力。 产品分类 ASR云服务产品,从用户体验、时效性、音频时长,可以划分为如下几类: 实时短音频转写,可以用于支撑输入法、搜索、导航等场景。 实时长音频转写,可以用于支撑视频字幕、图文直播、会议直 阅读全文
posted @ 2023-12-30 10:07 jackieathome 阅读(142) 评论(0) 推荐(0) 编辑
摘要:本文深入探讨前处理环节。 首先介绍一些基本的名词,比如 文件名后缀 文件格式 音频格式 采样率和位深 预备知识 文件名后缀、文件格式和音频格式 常见的音频文件,比如.wav、.mp3、.m4a、.wma等,这些都代表什么? 仅仅是这类音频文件的后缀而已,不一定和音频文件的编码、音频数据的编码相关。 阅读全文
posted @ 2023-12-30 09:04 jackieathome 阅读(114) 评论(0) 推荐(0) 编辑
摘要:本文深入探讨后处理环节。 在本环节要处理的重要特性有分词、断句、标点符号、大小写、数字等的格式归一等。 分词 和NLP、搜索等场景下的分词含义不同。对于拼音类的语言,比如英语、法语等,句子由多个单词组成,语音输出的结果,需要按需在各个单词之间补充或者去掉空格。对于中文来说,字和词之间不以空格作为边界 阅读全文
posted @ 2023-12-30 08:01 jackieathome 阅读(174) 评论(0) 推荐(0) 编辑
摘要:使用机器学习方法来训练模型,使用训练得到的模型来预测语音数据,进而得到识别的结果文本,这是实现语音识别产品的一般思路。 本文着重介绍通用语音识别产品对于数据的诉求。 对数据的要求 训练集 相关要求,如下: 地域,需要覆盖使用人群所在的地域,且数据的比例适中。 口音,需要覆盖典型的口音。 年龄,从18 阅读全文
posted @ 2023-12-29 23:02 jackieathome 阅读(91) 评论(0) 推荐(0) 编辑
摘要:转写时长超出60秒的语音文件,业界的竞品通常会使用创建异步转写任务的方式来提供支持。 一个简单、直接的实现方案,即: 网关服务接收到来自客户的转写请求时,将任务信息持久化至任务队列中。 由算法服务的实例从任务队列中提取任务,并执行转写操作。 待执行完毕之后,将转写结果保存至DB中,供调用方查询。 本 阅读全文
posted @ 2023-12-31 08:13 jackieathome 阅读(63) 评论(0) 推荐(0) 编辑
摘要:对于语音识别产品的实施方案,给出简易的业务流程,仅供参考。 如下流程图,可以使用如下两个站点查看。 web chart Web Sequence Diagrams 文件转写 创建文件转写任务 客户应用->接入网关: 发送创建文件转写的请求 接入网关->安全网关: 转发请求 安全网关->安全网关: 对 阅读全文
posted @ 2023-12-30 15:17 jackieathome 阅读(71) 评论(0) 推荐(0) 编辑
摘要:针对语音识别的产品,分别记录设计、开发过程中的决策点。 实时语音识别 对于实时语音识别来说,客户端和服务端之间实时交换语音数据和识别的结果。 客户端在启动识别时,即开始发送语音数据,期望在等待较短的时间后,即收到最初的识别结果。第一段语音数据和第一个识别结果之间的时延,一般称为首字时延。 客户端在停 阅读全文
posted @ 2023-12-30 14:14 jackieathome 阅读(84) 评论(0) 推荐(0) 编辑
摘要:一般而言,业务诉求作为架构设计的输入。 需求清单 对于语音识别产品而言,需满足的需求,举例如下: 功能需求 文件转写。 长文件转写,时长大于60秒,小于X小时,X可以指定为5。 短文件转写,时长小于60秒。 实时语音识别。 长语音识别,时长大于60秒,小于Y小时,Y可以指定为5。 短语音识别,时长小 阅读全文
posted @ 2023-12-30 13:11 jackieathome 阅读(100) 评论(0) 推荐(0) 编辑
摘要:本文记录,作为项目主要负责人,完整参与语音识别项目的交付历程。 2019年12月中旬 接到项目交付任务,收集基本知识,启动业务分析工作。 2020年1月 完成竞品分析的整理。 梳理合作伙伴的清单,整理项目计划,启动和各合作伙伴的沟通工作。 启动架构方案、设计方案的准备工作。 2020年2月 和合作伙 阅读全文
posted @ 2023-12-30 12:09 jackieathome 阅读(62) 评论(0) 推荐(0) 编辑
摘要:对于通常的软件项目,参与角色,比如可以有用户,消费者,产品团队,研发团队(研发团队包括开发和测试),运营团队,运维团队,管理团队。 通常认为,用户,负责购买服务的群体,而消费者,负责使用业务的群体。这两个群体,不在本文的讨论范围之内,因此后续的介绍中,除非明确说明,否则默认均不涉及。 产品团队,研发 阅读全文
posted @ 2023-12-30 11:08 jackieathome 阅读(78) 评论(0) 推荐(0) 编辑