机器学习 - 第10页 - 网站分类

CMU DLSys 课程笔记 1 - Introduction and Logistics

CMU DLSys 课程笔记 1 - Introduction and Logistics CMU Deep Learning System，教你如何实现一个深度学习系统。 CS 自学指南课程介绍页面 | 课程主页本节 Slides | 本节课程视频目前（2024.01.06）课程在线评测账号和 ...

ASR项目实战-交付过程中遇到的内核崩溃问题

当前参与交付的语音识别产品服务，算法模块基于经典的Kaldi，算法中的一部分运行在GPU之上。算法团队采用的是声学模型+语言模型的1-pass方案。这个方案的特点在于，语言模型数据文件（HCLG文件）的大小，和训练语料的丰富程度正相关，即语言文本的语料越多，经过训练、转换后得到的语言模型文件越大。 ...

ASR项目实战-交付过程中遇到的疑似内存泄漏问题

基于Kaldi实现语音识别时，需要引入一款名为OpenFST的开源软件，本文中提到的内存问题，即和这款软件相关。考虑到过程比较曲折，内容相对比较长，因此先说结论。在做长时间的语音识别时，集成了Kaldi和OpenFST的进程将会占用远超出预期的内存，这个现象可能和OpenFST、glibc的实现 ...

评价机器学习模型的思路

这个标题不够严谨，不同业务领域下的模型，没有可比性。因此，应当增加一定的限定条件，才能对机器学习的模型进行比较。当前可行的限定条件，如下：模型模型结构参数的数量训练算法训练时长数据训练数据集验证数据集数据质量基础平台训练平台硬件软件运行平台硬件软件在给定上述条件时 ...

ASR项目实战-任务队列在文件转写特性中的应用

转写时长超出60秒的语音文件，业界的竞品通常会使用创建异步转写任务的方式来提供支持。一个简单、直接的实现方案，即：网关服务接收到来自客户的转写请求时，将任务信息持久化至任务队列中。由算法服务的实例从任务队列中提取任务，并执行转写操作。待执行完毕之后，将转写结果保存至DB中，供调用方查询。本 ...

ASR项目实战-方案设计

对于语音识别产品的实施方案，给出简易的业务流程，仅供参考。如下流程图，可以使用如下两个站点查看。 web chart Web Sequence Diagrams 文件转写创建文件转写任务客户应用->接入网关: 发送创建文件转写的请求接入网关->安全网关: 转发请求安全网关->安全网关: 对 ...

ASR项目实战-决策点

针对语音识别的产品，分别记录设计、开发过程中的决策点。实时语音识别对于实时语音识别来说，客户端和服务端之间实时交换语音数据和识别的结果。客户端在启动识别时，即开始发送语音数据，期望在等待较短的时间后，即收到最初的识别结果。第一段语音数据和第一个识别结果之间的时延，一般称为首字时延。客户端在停 ...

ASR项目实战-架构设计

一般而言，业务诉求作为架构设计的输入。需求清单对于语音识别产品而言，需满足的需求，举例如下：功能需求文件转写。长文件转写，时长大于60秒，小于X小时，X可以指定为5。短文件转写，时长小于60秒。实时语音识别。长语音识别，时长大于60秒，小于Y小时，Y可以指定为5。短语音识别，时长小 ...

ASR项目实战-项目交付历程

本文记录，作为项目主要负责人，完整参与语音识别项目的交付历程。 2019年12月中旬接到项目交付任务，收集基本知识，启动业务分析工作。 2020年1月完成竞品分析的整理。梳理合作伙伴的清单，整理项目计划，启动和各合作伙伴的沟通工作。启动架构方案、设计方案的准备工作。 2020年2月和合作伙 ...

ASR项目实战-交付团队的分工

对于通常的软件项目，参与角色，比如可以有用户，消费者，产品团队，研发团队（研发团队包括开发和测试），运营团队，运维团队，管理团队。通常认为，用户，负责购买服务的群体，而消费者，负责使用业务的群体。这两个群体，不在本文的讨论范围之内，因此后续的介绍中，除非明确说明，否则默认均不涉及。产品团队，研发 ...

ASR项目实战-产品分析

分析Google、讯飞、百度、阿里、QQ、搜狗等大厂的ASR服务，可以罗列出一款ASR服务所需要具备的能力。产品分类 ASR云服务产品，从用户体验、时效性、音频时长，可以划分为如下几类：实时短音频转写，可以用于支撑输入法、搜索、导航等场景。实时长音频转写，可以用于支撑视频字幕、图文直播、会议直 ...

ASR项目实战-前处理

本文深入探讨前处理环节。首先介绍一些基本的名词，比如文件名后缀文件格式音频格式采样率和位深预备知识文件名后缀、文件格式和音频格式常见的音频文件，比如.wav、.mp3、.m4a、.wma等，这些都代表什么？仅仅是这类音频文件的后缀而已，不一定和音频文件的编码、音频数据的编码相关。 ...

ASR项目实战-后处理

本文深入探讨后处理环节。在本环节要处理的重要特性有分词、断句、标点符号、大小写、数字等的格式归一等。分词和NLP、搜索等场景下的分词含义不同。对于拼音类的语言，比如英语、法语等，句子由多个单词组成，语音输出的结果，需要按需在各个单词之间补充或者去掉空格。对于中文来说，字和词之间不以空格作为边界 ...

ASR项目实战-数据

使用机器学习方法来训练模型，使用训练得到的模型来预测语音数据，进而得到识别的结果文本，这是实现语音识别产品的一般思路。本文着重介绍通用语音识别产品对于数据的诉求。对数据的要求训练集相关要求，如下：地域，需要覆盖使用人群所在的地域，且数据的比例适中。口音，需要覆盖典型的口音。年龄，从18 ...

ASR项目实战-构建Kaldi

准备工作安装构建时依赖的基础软件软件清单如下： bzip2 python3 automake libtool cmake gcc g++ gfortran git subversion 不同平台安装软件的方式不同，比如可以使用yum或者apt-get等。下载开源软件软件清单如下： Libun ...

ASR项目实战-语音识别

本文深入探讨语音识别处理环节。本阶段的重点特性为语音识别、VAD、热词、文本的时间偏移、讲话人的识别等。语音识别业界流派众多，比如Kaldi、端到端等，具体选择哪一种，需要综合考虑人员能力、训练数据量和质量、硬件设施、交付周期等，作出相对合理的交付规划。基于Kaldi的方案，优点在于其发挥稳 ...

pytorch——基于循环神经网络的情感分类

任务目标基于给定数据集，进行数据预处理，搭建以LSTM为基本单元的模型，以Adam优化器对模型进行训练，使用训练后的模型进行预测并计算预测分类的准确率。数据集信息 IMDB数据集是一个对电影评论标注为正向评论与负向评论的数据集，共有25000条文本数据作为训练集，25000条文本数据作为测试集。 ...

分类模型评估（混淆矩阵, precision, recall, f1-score）的原理和Python实现

混淆矩阵当我们已经获取到一个分类模型的预测值，可以通过不同指标来进行评估。往往衡量二分类模型是基于以下的混淆矩阵概念： True Positive：真实值为正、预测值为正（真阳性） False Positive：真实值为负、预测值为正（假阳性） False Negative：真实值为正、预测值为 ...

ml.net例子笔记4-ml.net v2版本例子运行

1 Ml.NET版本更新当前的Microsoft.ML的软件版本如下： https://gitee.com/mirrors_feiyun0112/machinelearning-samples.zh-cn 例子使用版本为1.6.0 例子工程更换版本的办法： 1 Directory.Build.pr ...

pytorch——支持向量机

1、任务要求针对已知类别的5张卧室照片(标签为+1)和5张森林照片(标签为-1)所对应的矩阵数据进行分类训练,得到训练集模型;再利用支持向量机对另外未知类别的5张卧室照片和5张森林照片数据进行测试分类(二分类)，得到分类结果及其准确率。 2、先导入查看基本数据 3、合并数据将房间的数据和森林的数 ...