ASR项目实战-数据

合集 - 语音识别(13)

1.ASR项目实战-交付过程中遇到的内核崩溃问题2024-01-03 2.ASR项目实战-语音识别2023-12-29 3.ASR项目实战-构建Kaldi2023-12-29 4.ASR项目实战-产品分析2023-12-30 5.ASR项目实战-前处理2023-12-30 6.ASR项目实战-后处理2023-12-30

7.ASR项目实战-数据2023-12-29

8.ASR项目实战-任务队列在文件转写特性中的应用2023-12-31 9.ASR项目实战-方案设计2023-12-30 10.ASR项目实战-决策点2023-12-30 11.ASR项目实战-架构设计2023-12-30 12.ASR项目实战-项目交付历程2023-12-30 13.ASR项目实战-交付团队的分工2023-12-30

使用机器学习方法来训练模型，使用训练得到的模型来预测语音数据，进而得到识别的结果文本，这是实现语音识别产品的一般思路。
本文着重介绍通用语音识别产品对于数据的诉求。

对数据的要求

训练集

测试集

获取数据的方法

训练集

可行的方法有：

采集开源训练数据集。这类数据通常用于研究，因此数据质量相对可控，唯一的问题在于数量较少，直白的说，用来写论文也许够用，但在工业强度下应用，则远远不满足要求。
采购商业数据。数据公司可以通过如下方式收集数据：
- 按照要求在指定的地域、寻找符合要求的人来录制语音数据。
- 采用转包的方式，将任务包交给当地有资质的公司来收集数据。
- 采用众包的方式，收集语音数据。
自行采集数据。类似数据公司的操作方式，可以有如下方式：
- 按照要求在指定的地域、寻找符合要求的人来录制语音数据。
- 采用众包的方式，收集语音数据。

难点在于：

交付周期长。收集数据的操作，从提出诉求到最终收到数据，中间耗时良久，进度基本不可控。
质量不可控。语音数据没有比较好的手段可以实现自动化检查，因此需要花费相当的人力来整理、清洗数据，剔除质量差或者不满足要求的数据。

测试集

可行的方法有：

客户提供带有标注的测试集。
客户提供测试集的获取方法，交付团队按照要求采集数据用于测试。
客户提供测试集的标准，交付团队按照要求自行准备数据。

注意：测试集用于验证模型的有效性，为保证公平性和有效性，测试集中的数据，绝对不允许作为训练集来使用。

参考资料

如何正确使用机器学习中的训练集、验证集和测试集？

posted @ 2023-12-29 23:02 jackieathome 阅读(110) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· ASR项目实战-产品分析

· ASR项目实战-语音识别

· ASRT语音识别项目的自定义数据集制作

· 人工智能，应该如何测试？（五）ASR 效果测试介绍

· ASR基础知识整理

公告

昵称： jackieathome
园龄： 1年4个月
粉丝： 6
关注： 2

+加关注

2025年3月

日

一

二

三

四

五

六

jackieathome

ASR项目实战-数据

对数据的要求

训练集

测试集

获取数据的方法

训练集

测试集

参考资料

公告

搜索

常用链接

合集

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论