随笔分类 -  Machine Learning

摘要:利用非平行语料训练跨语种和多语种的语音识别(Automatic Speech Recognization,ASR),使用对比预测编码(Contrastive Predictive Coding,CPC)预训练语音识别系统,效果甚至超过监督学习。 代码地址:CPC_audio 简介 已有较多的工作应用 阅读全文
posted @ 2020-10-08 22:18 冬色 阅读(465) 评论(0) 推荐(0) 编辑
摘要:本文介绍近期出现的、具有代表性的,由声学特征重建语音波形的相关工作。将声学特征转换为语音波形的这类模型通常被称作声码器,一般来说,目前的端到端语音合成首先由声学模型生成声学特征,比如梅尔频谱、线性谱等,再由声码器转换为最终的语音。生成语音中的韵律、表现力等由声学模型决定,而清晰度则由声码器决定,声码 阅读全文
posted @ 2020-09-20 18:53 冬色 阅读(2359) 评论(0) 推荐(0) 编辑
摘要:本篇总结神经机器翻译的实践中,较为基础的最佳实践。 应该使用哪个模型作为基线 Transformer是2017年发布的模型,即使到2020年仍然是比较好的基线模型,大热的BERT就是其升级版。 代码地址 Fairseq 这里实际推荐比较使用Fairseq指定arch为Transformer,按照官方 阅读全文
posted @ 2020-09-12 18:55 冬色 阅读(1271) 评论(0) 推荐(0) 编辑
摘要:神经机器翻译(Neural Machine Translation,NMT)建立源语言到目标语言的映射。多语种神经机器翻译(Multilingual NMT)能够实现一个模型在多个语言之间映射。本篇主要介绍神经机器翻译,以及多语种神经机器翻译的最新研究进展。 Does Multi-Encoder H 阅读全文
posted @ 2020-09-11 09:30 冬色 阅读(1483) 评论(0) 推荐(0) 编辑
摘要:利用Fairseq训练一个新的机器翻译模型,官方机器翻译(German-English)示例:Fairseq-Training a New Model。 数据预处理 进入fairseq/examples/translation目录下,执行sh prepare-iwslt14.sh。prepare-i 阅读全文
posted @ 2020-08-23 18:07 冬色 阅读(3431) 评论(0) 推荐(3) 编辑
摘要:一种快速、可扩展的序列建模工具包,Pytorch的高级封装库,适用于机器翻译、语言模型和篇章总结等建模任务。 抽象 注册 实现上的特点 抽象 Dataset:数据加载 Fairseq中的Dataset基本都是按功能逐层封装,按需组合起来。所有数据加载的实现均位于fairseq/data下面。 两个比 阅读全文
posted @ 2020-08-22 18:35 冬色 阅读(3109) 评论(0) 推荐(2) 编辑
摘要:ICASSP2020中与语音合成相关一共有5个Session,分别是: Machine Learning for Speech Synthesis I Machine Learning for Speech Synthesis II Machine Learning for Speech Synth 阅读全文
posted @ 2020-06-27 21:47 冬色 阅读(4911) 评论(0) 推荐(2) 编辑
摘要:语音质量评估,就是通过人类或自动化的方法评价语音质量。在实践中,有很多主观和客观的方法评价语音质量。主观方法就是通过人类对语音进行打分,比如MOS、CMOS和ABX Test。客观方法即是通过算法评测语音质量,在实时语音通话领域,这一问题研究较多,出现了诸如如PESQ和P.563这样的有参考和无参考 阅读全文
posted @ 2019-12-15 22:20 冬色 阅读(19652) 评论(4) 推荐(0) 编辑
摘要:音频分类前置知识 音频 音频常常被表示为波形图,其中横轴为时间,纵轴为幅值。音频多种多样,分类中一般分为语音、音乐、噪音、静音和环境音等。 采样频率 每秒从模拟信号中采集的样本个数,基本单位为 。信号的采样频率一般遵循奈奎斯特采样定理,即采样频率必须大于被采样信号最高频率的两倍。一般而言: 为电话信 阅读全文
posted @ 2019-10-12 11:19 冬色 阅读(4646) 评论(0) 推荐(1) 编辑
摘要:这本是近三个月间零零散散看到的知识点,今记录于此。 韵律预测 口语句子的韵律结构是指某些词似乎自然地结合在一起,而某些词似乎有明显间隔或彼此分开。如: 包含两个语调短语,边界即是逗号处。 在第一个短语中,似乎还有更小的韵律边界,通常称为中间短语,把单词做如下分割: 从一个语调短语的开始到结尾,$F_ 阅读全文
posted @ 2019-04-13 11:46 冬色 阅读(443) 评论(0) 推荐(0) 编辑
摘要:分类指标 精确率和召回率:多用于二分类问题 混淆矩阵 其中,TP(True Positive, 真正):被模型预测为正例的正样本; FP(False Positive, 假正):被模型预测为正例的负样本; FN(False Negative, 假负):被模型预测为负例的正样本; TN(True Ne 阅读全文
posted @ 2019-02-21 11:27 冬色 阅读(1348) 评论(0) 推荐(0) 编辑
摘要:逻辑回归(Logistic Regression, LR) 逻辑回归是一种广义线性模型,通过对数概率函数,将线性函数的结果进行映射,从而将目标函数的取值空间从(,+)映射到了(0,1),从而可以处理分类问题。注意:逻辑回归是一种 分类 算法。 前置知识 对数概率 阅读全文
posted @ 2019-02-19 11:44 冬色 阅读(2402) 评论(0) 推荐(1) 编辑
摘要:又名: 、`tf.contrib.rnn.LSTMCell` 参见: "tf.nn.rnn_cell.LSTMCell" 输出: output:LSTM单元输出,与 的区别在于该输出又经过激活以及和一个sigmoid函数输出相乘。shape: [batch_size,num_units] new_s 阅读全文
posted @ 2019-02-15 16:47 冬色 阅读(818) 评论(0) 推荐(0) 编辑
摘要:在Tensorflow、Numpy和PyTorch中都提供了使用einsum的api,einsum是一种能够简洁表示点积、外积、转置、矩阵-向量乘法、矩阵-矩阵乘法等运算的领域特定语言。在Tensorflow等计算框架中使用einsum,操作矩阵运算时可以免于记忆和使用特定的函数,并且使得代码简洁, 阅读全文
posted @ 2019-01-25 15:03 冬色 阅读(9672) 评论(2) 推荐(4) 编辑
摘要:图像中的风格转换 风格转换是最早来源于图像领域的概念,一言以蔽之,即是:将一张图片的艺术风格应用到另外一张图片上。 " " 深度卷积网络具有良好的特征提取能力,不同层提取的特征具有不同的含义。深度卷积网络由一层层的非线性函数组成,可以视为复杂的多元线性函数,该函数完成从输入图像到输出的映射。一般而言 阅读全文
posted @ 2019-01-20 14:45 冬色 阅读(9934) 评论(0) 推荐(2) 编辑
摘要:一维卷积 在tensorflow中,可以使用 实现一维卷积。 : 输入Tensor : int, 输出Tensor通道数 : int/tuple or list of int, 一维卷积窗口的大小 : int/tuple or list of int, 卷积步长 : /`same` : int/tu 阅读全文
posted @ 2019-01-13 21:44 冬色 阅读(707) 评论(0) 推荐(0) 编辑
摘要:第一章 图像领域,第i类图片提取到的特征: featurei=jwi,jxj+bi 其中,j表示一张图片的第j个像素,bi是偏置值(bias),顾名思义就是这个数据本身的一些倾向,比如如果训练获得的参数w大部分数字是0,那么0特征对应的bias 阅读全文
posted @ 2018-11-27 22:18 冬色 阅读(276) 评论(0) 推荐(0) 编辑
摘要:简单而言,seq2seq由两个RNN组成,一个是编码器(encoder),一个是解码器(decoder).以MT为例,将源语言“我爱中国”译为“I love China”,则定义序列: $$ X=(x_0,x_1,x_2,x_3)\\ 其中,x_0=“我”,x_1=“爱”,x_2=“中”,x_3=“ 阅读全文
posted @ 2018-10-29 17:01 冬色 阅读(1672) 评论(3) 推荐(0) 编辑
摘要:第二章 Tensorflow主要依赖两个工具:Protocol Buffer和Bazel Protocol. Protocol Buffer是一个结构数据序列化的的工具,在Tensorflow中大部分的数据都是通过Protocol Buffer的形式储存,Bazel是谷歌开源的编译工具。 第三章 3 阅读全文
posted @ 2018-10-28 22:42 冬色 阅读(352) 评论(0) 推荐(0) 编辑
摘要:论文地址: "Attention is you need" 序列编码 深度学习做NLP的方法,基本都是先将句子分词,然后每个词转化为对应的的词向量序列,每个句子都对应的是一个矩阵X=(x1,x2,...,xt),其中xi都代表着第i个词向量,维度为d维,故$x\in R^{n×d 阅读全文
posted @ 2018-10-14 22:14 冬色 阅读(1346) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示