摘要: 对某一个变量感兴趣的话,在启动调试之后,直接对该变量“添加监视”,在调试窗口中即可看到该变量的变化; 查看指针指向的值 \[ 调试\to 窗口\to 内存\to 内存1 \] 拷贝指针的值,将指针的值复制到“内存1”的地址文本框中,显示的值默认为十六进制。 程序调试快捷键总结 Ctrl + F5直接 阅读全文
posted @ 2021-06-27 22:27 冬色 阅读(334) 评论(0) 推荐(0) 编辑
摘要: 简介 sh是Unix最初使用的shell,Linux默认为bash,是sh的扩展。 source <FileName>:在当前bash环境下,读取并执行FileName中的命令,该FileName可以无执行权限,该命令可以用命令.代替; sh <FileName>或者bash <FileName>: 阅读全文
posted @ 2021-06-27 22:25 冬色 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 本文主要介绍3种模型,分别是前向注意力(Forward Attention,FA/FA+TA),逐步单向注意力(Stepwise Monotonic Attention,SMA)和FastSpeech2,前两者都是要求注意力权重尽量保证单调向前。具体来说,假设某一解码步上的注意力权重为:\([0,0 阅读全文
posted @ 2021-02-01 11:17 冬色 阅读(903) 评论(1) 推荐(1) 编辑
摘要: 本文主要介绍Interspeech2020中关于语音合成文本前端相关的进展,总体来说,主要是关注中文里面的多音字注音。 g2pM: A Neural Grapheme-to-Phoneme Conversion Package for Mandarin Chinese Based on a New 阅读全文
posted @ 2020-12-05 18:36 冬色 阅读(2375) 评论(0) 推荐(1) 编辑
摘要: 利用非平行语料训练跨语种和多语种的语音识别(Automatic Speech Recognization,ASR),使用对比预测编码(Contrastive Predictive Coding,CPC)预训练语音识别系统,效果甚至超过监督学习。 代码地址:CPC_audio 简介 已有较多的工作应用 阅读全文
posted @ 2020-10-08 22:18 冬色 阅读(452) 评论(0) 推荐(0) 编辑
摘要: 本文介绍近期出现的、具有代表性的,由声学特征重建语音波形的相关工作。将声学特征转换为语音波形的这类模型通常被称作声码器,一般来说,目前的端到端语音合成首先由声学模型生成声学特征,比如梅尔频谱、线性谱等,再由声码器转换为最终的语音。生成语音中的韵律、表现力等由声学模型决定,而清晰度则由声码器决定,声码 阅读全文
posted @ 2020-09-20 18:53 冬色 阅读(2266) 评论(0) 推荐(0) 编辑
摘要: 本篇总结神经机器翻译的实践中,较为基础的最佳实践。 应该使用哪个模型作为基线 Transformer是2017年发布的模型,即使到2020年仍然是比较好的基线模型,大热的BERT就是其升级版。 代码地址 Fairseq 这里实际推荐比较使用Fairseq指定arch为Transformer,按照官方 阅读全文
posted @ 2020-09-12 18:55 冬色 阅读(1253) 评论(0) 推荐(0) 编辑
摘要: 神经机器翻译(Neural Machine Translation,NMT)建立源语言到目标语言的映射。多语种神经机器翻译(Multilingual NMT)能够实现一个模型在多个语言之间映射。本篇主要介绍神经机器翻译,以及多语种神经机器翻译的最新研究进展。 Does Multi-Encoder H 阅读全文
posted @ 2020-09-11 09:30 冬色 阅读(1435) 评论(0) 推荐(0) 编辑
摘要: 利用Fairseq训练一个新的机器翻译模型,官方机器翻译(German-English)示例:Fairseq-Training a New Model。 数据预处理 进入fairseq/examples/translation目录下,执行sh prepare-iwslt14.sh。prepare-i 阅读全文
posted @ 2020-08-23 18:07 冬色 阅读(3397) 评论(0) 推荐(3) 编辑
摘要: 一种快速、可扩展的序列建模工具包,Pytorch的高级封装库,适用于机器翻译、语言模型和篇章总结等建模任务。 抽象 注册 实现上的特点 抽象 Dataset:数据加载 Fairseq中的Dataset基本都是按功能逐层封装,按需组合起来。所有数据加载的实现均位于fairseq/data下面。 两个比 阅读全文
posted @ 2020-08-22 18:35 冬色 阅读(3023) 评论(0) 推荐(2) 编辑
摘要: ICASSP2020中与语音合成相关一共有5个Session,分别是: Machine Learning for Speech Synthesis I Machine Learning for Speech Synthesis II Machine Learning for Speech Synth 阅读全文
posted @ 2020-06-27 21:47 冬色 阅读(4877) 评论(0) 推荐(2) 编辑
摘要: 环境变量配置文件 MacOS Linux 如果shell的类型是zsh时,还会存在 和`~/.zshrc`。 其中 ,`/etc/paths /etc/bashrc /etc/profile /etc/paths /etc/bashrc`在bash shell执行时,会读取该文件。 MacOS默认用 阅读全文
posted @ 2020-02-27 14:28 冬色 阅读(626) 评论(0) 推荐(0) 编辑
摘要: 链接是一种文件共享方式,Linux常用其解决一些库版本的问题,通常也会将一些目录层次较深的文件链接到更易访问的目录中。在这些用途中,通常会使用软链接(又称符号链接)。 硬链接: 普通文件,其i node直接指向硬盘区块,类似于C++的指针。 软链接: 保存代表文件的绝对路径,类似于Windows的快 阅读全文
posted @ 2020-02-26 15:31 冬色 阅读(319) 评论(0) 推荐(0) 编辑
摘要: 对于信号$f(t)$, 其能量为: $$ E=\lim_{T\to \infty}\int_{ T}^{T}|f(t)|^2dt $$ 其功率为: $$ P=\lim_{T\to \infty}\frac{1}{2T}\int_{ T}^{T}|f(t)|^2dt $$ 也就是说,能量是信号的平方在 阅读全文
posted @ 2020-02-25 16:24 冬色 阅读(5589) 评论(0) 推荐(2) 编辑
摘要: 该文章对应的GitHub仓库: "cnlinxi/algorithm_practise" 数组中重复的数字 数组中所有数字都在0~n 1的范围内,数组中某些数字是重复的,找出重复的数字。如长度为7的数组{2, 3, 1, 0, 2 5, 3},对应的输出应为2或3. 输入: 输出: 解法1:排序,然 阅读全文
posted @ 2019-12-15 22:32 冬色 阅读(786) 评论(1) 推荐(0) 编辑
摘要: 语音质量评估,就是通过人类或自动化的方法评价语音质量。在实践中,有很多主观和客观的方法评价语音质量。主观方法就是通过人类对语音进行打分,比如MOS、CMOS和ABX Test。客观方法即是通过算法评测语音质量,在实时语音通话领域,这一问题研究较多,出现了诸如如PESQ和P.563这样的有参考和无参考 阅读全文
posted @ 2019-12-15 22:20 冬色 阅读(19179) 评论(4) 推荐(0) 编辑
摘要: 音频分类前置知识 音频 音频常常被表示为波形图,其中横轴为时间,纵轴为幅值。音频多种多样,分类中一般分为语音、音乐、噪音、静音和环境音等。 采样频率 每秒从模拟信号中采集的样本个数,基本单位为 。信号的采样频率一般遵循奈奎斯特采样定理,即采样频率必须大于被采样信号最高频率的两倍。一般而言: 为电话信 阅读全文
posted @ 2019-10-12 11:19 冬色 阅读(4554) 评论(0) 推荐(1) 编辑
摘要: 对于语音通信而言,语音码率较低,添加适当冗余是对抗网络丢包的常见方式。冗余方式有多种,包括 ,`FEC RFC 3350 RFC 2198 RFC 5109`是添加FEC数据的RTP封装标准协议。 RTP格式(RFC 3350) 文档地址: "RTP: A Transport Protocol fo 阅读全文
posted @ 2019-10-09 11:14 冬色 阅读(4941) 评论(0) 推荐(0) 编辑
摘要: NetEQ使得WebRTC语音引擎能够快速且高解析度地适应不断变化的网络环境,确保了音质优美且缓冲延迟最小,其集成了自适应抖动控制以及丢包隐藏算法。 WebRTC和NetEQ概述 WebRTC WebRTC (Web Real Time Communications) 是一项实时通讯技术,它允许网络 阅读全文
posted @ 2019-10-08 19:30 冬色 阅读(3564) 评论(0) 推荐(3) 编辑
摘要: VoIP基本原理 VoIP是通过Internet等互联网络传递语音信息的,主要包括终端设备、网关、网守和网络管理等部分。网关负责提供IP网络和传统的 接口。 VoIP的基本原理:通过语音压缩算法对语音数据进行压缩编码处理,然后将语音数据按照 标准打包,经过 网络把数据包发送到接收端,之后将语音数据包 阅读全文
posted @ 2019-10-08 19:27 冬色 阅读(2837) 评论(0) 推荐(0) 编辑
摘要: ,`accelerate.cc` 加速操作,对语音信号处理以实现快速播放。 类继承自父类 ,大多数功能由 实现。 从|input|中读入长度为|input_length|的样本点;输出到算法缓冲区|output|中;改动的样本点数为|length_change_samples|;当fast_acce 阅读全文
posted @ 2019-10-08 19:23 冬色 阅读(485) 评论(0) 推荐(0) 编辑
摘要: 声纹识别,也称说话人识别,是一种通过声音判断说话人身份的技术。声纹识别可以分为说话人辨识(Speaker Identification, SI)和说话人确认(Speaker Verification, SV)。SI指将待测语音与已知集合内若干说话人比对,选取最为匹配的说话人;而SV指对于一个目标身份 阅读全文
posted @ 2019-05-05 16:32 冬色 阅读(3961) 评论(0) 推荐(2) 编辑
摘要: 这本是近三个月间零零散散看到的知识点,今记录于此。 韵律预测 口语句子的韵律结构是指某些词似乎自然地结合在一起,而某些词似乎有明显间隔或彼此分开。如: 包含两个语调短语,边界即是逗号处。 在第一个短语中,似乎还有更小的韵律边界,通常称为中间短语,把单词做如下分割: 从一个语调短语的开始到结尾,$F_ 阅读全文
posted @ 2019-04-13 11:46 冬色 阅读(439) 评论(0) 推荐(0) 编辑
摘要: 排列与组合公式 从n个不同元素中任取r个,求取法个数; 排列要求次序,组合不讲次序; 全排列:$A^n_n=n!$ 选排列:$A_n^r=\frac{n!}{(n r)!}=n(n 1)...(n r+1)$ 组合:$C_n^r=\binom{n}{r}=\frac{n!}{r!(n r)!}=\f 阅读全文
posted @ 2019-03-01 17:48 冬色 阅读(4275) 评论(1) 推荐(2) 编辑
摘要: 分类指标 精确率和召回率:多用于二分类问题 混淆矩阵 其中,TP(True Positive, 真正):被模型预测为正例的正样本; FP(False Positive, 假正):被模型预测为正例的负样本; FN(False Negative, 假负):被模型预测为负例的正样本; TN(True Ne 阅读全文
posted @ 2019-02-21 11:27 冬色 阅读(1311) 评论(0) 推荐(0) 编辑