随笔分类 - Coding
摘要:对某一个变量感兴趣的话,在启动调试之后,直接对该变量“添加监视”,在调试窗口中即可看到该变量的变化; 查看指针指向的值 拷贝指针的值,将指针的值复制到“内存1”的地址文本框中,显示的值默认为十六进制。 程序调试快捷键总结 Ctrl + F5直接
阅读全文
摘要:简介 sh是Unix最初使用的shell,Linux默认为bash,是sh的扩展。 source <FileName>:在当前bash环境下,读取并执行FileName中的命令,该FileName可以无执行权限,该命令可以用命令.代替; sh <FileName>或者bash <FileName>:
阅读全文
摘要:利用非平行语料训练跨语种和多语种的语音识别(Automatic Speech Recognization,ASR),使用对比预测编码(Contrastive Predictive Coding,CPC)预训练语音识别系统,效果甚至超过监督学习。 代码地址:CPC_audio 简介 已有较多的工作应用
阅读全文
摘要:本篇总结神经机器翻译的实践中,较为基础的最佳实践。 应该使用哪个模型作为基线 Transformer是2017年发布的模型,即使到2020年仍然是比较好的基线模型,大热的BERT就是其升级版。 代码地址 Fairseq 这里实际推荐比较使用Fairseq指定arch为Transformer,按照官方
阅读全文
摘要:利用Fairseq训练一个新的机器翻译模型,官方机器翻译(German-English)示例:Fairseq-Training a New Model。 数据预处理 进入fairseq/examples/translation目录下,执行sh prepare-iwslt14.sh。prepare-i
阅读全文
摘要:一种快速、可扩展的序列建模工具包,Pytorch的高级封装库,适用于机器翻译、语言模型和篇章总结等建模任务。 抽象 注册 实现上的特点 抽象 Dataset:数据加载 Fairseq中的Dataset基本都是按功能逐层封装,按需组合起来。所有数据加载的实现均位于fairseq/data下面。 两个比
阅读全文
摘要:环境变量配置文件 MacOS Linux 如果shell的类型是zsh时,还会存在 和`~/.zshrc`。 其中 ,`/etc/paths /etc/bashrc /etc/profile /etc/paths /etc/bashrc`在bash shell执行时,会读取该文件。 MacOS默认用
阅读全文
摘要:链接是一种文件共享方式,Linux常用其解决一些库版本的问题,通常也会将一些目录层次较深的文件链接到更易访问的目录中。在这些用途中,通常会使用软链接(又称符号链接)。 硬链接: 普通文件,其i node直接指向硬盘区块,类似于C++的指针。 软链接: 保存代表文件的绝对路径,类似于Windows的快
阅读全文
摘要:对于语音通信而言,语音码率较低,添加适当冗余是对抗网络丢包的常见方式。冗余方式有多种,包括 ,`FEC RFC 3350 RFC 2198 RFC 5109`是添加FEC数据的RTP封装标准协议。 RTP格式(RFC 3350) 文档地址: "RTP: A Transport Protocol fo
阅读全文
摘要:VoIP基本原理 VoIP是通过Internet等互联网络传递语音信息的,主要包括终端设备、网关、网守和网络管理等部分。网关负责提供IP网络和传统的 接口。 VoIP的基本原理:通过语音压缩算法对语音数据进行压缩编码处理,然后将语音数据按照 标准打包,经过 网络把数据包发送到接收端,之后将语音数据包
阅读全文
摘要:,`accelerate.cc` 加速操作,对语音信号处理以实现快速播放。 类继承自父类 ,大多数功能由 实现。 从|input|中读入长度为|input_length|的样本点;输出到算法缓冲区|output|中;改动的样本点数为|length_change_samples|;当fast_acce
阅读全文
摘要:这本是近三个月间零零散散看到的知识点,今记录于此。 韵律预测 口语句子的韵律结构是指某些词似乎自然地结合在一起,而某些词似乎有明显间隔或彼此分开。如: 包含两个语调短语,边界即是逗号处。 在第一个短语中,似乎还有更小的韵律边界,通常称为中间短语,把单词做如下分割: 从一个语调短语的开始到结尾,$F_
阅读全文
摘要:分类指标 精确率和召回率:多用于二分类问题 混淆矩阵 其中,TP(True Positive, 真正):被模型预测为正例的正样本; FP(False Positive, 假正):被模型预测为正例的负样本; FN(False Negative, 假负):被模型预测为负例的正样本; TN(True Ne
阅读全文
摘要:又名: 、`tf.contrib.rnn.LSTMCell` 参见: "tf.nn.rnn_cell.LSTMCell" 输出: output:LSTM单元输出,与 的区别在于该输出又经过激活以及和一个sigmoid函数输出相乘。shape: [batch_size,num_units] new_s
阅读全文
摘要:在Tensorflow、Numpy和PyTorch中都提供了使用einsum的api,einsum是一种能够简洁表示点积、外积、转置、矩阵-向量乘法、矩阵-矩阵乘法等运算的领域特定语言。在Tensorflow等计算框架中使用einsum,操作矩阵运算时可以免于记忆和使用特定的函数,并且使得代码简洁,
阅读全文
摘要:展示如何将数据输入到计算图中 可以看作是相同类型“元素”的有序列表,在实际使用时,单个元素可以是向量、字符串、图片甚至是tuple或dict。 数据集对象实例化: 迭代器对象实例化: 读取结束异常:如果一个 中的元素被读取完毕,再尝试 的话,会抛出 异常,这个行为与使用队列方式读取数据是一致的。 高
阅读全文
摘要:第一章 图像领域,第类图片提取到的特征: 其中,表示一张图片的第个像素,是偏置值(bias),顾名思义就是这个数据本身的一些倾向,比如如果训练获得的参数大部分数字是0,那么0特征对应的bias
阅读全文
摘要:第二章 Tensorflow主要依赖两个工具:Protocol Buffer和Bazel Protocol. Protocol Buffer是一个结构数据序列化的的工具,在Tensorflow中大部分的数据都是通过Protocol Buffer的形式储存,Bazel是谷歌开源的编译工具。 第三章 3
阅读全文
摘要:Tacotron2 前置知识 通过时域到频域的变换,可以得到从侧面看到的 频谱 ,但是这个频谱并没有包含时域的中全部的信息,因为频谱只代表各个频率正弦波的振幅是多少,而没有提到相位。基础的正弦波中,振幅、频率和相位缺一不可。不同相位决定了波的位置,所以对于频域分析,
阅读全文
摘要:tf.nn.softmax softmax是神经网络的最后一层将实数空间映射到概率空间的常用方法,公式如下: 本文意于分析tensorflow中的 ,关于softmax的具体推导和相关知识点,参照
阅读全文