摘要: 论文地址:PACDNN:一种用于语音增强的相位感知复合深度神经网络 相似代码:https://github.com/phpstorm1/SE-FCN 引用格式:Hasannezhad M,Yu H,Zhu W P,et al. PACDNN: A phase-aware composite deep 阅读全文
posted @ 2022-02-15 15:39 凌逆战 阅读(1604) 评论(0) 推荐(3) 编辑
摘要: 2013年 word Embedding 2017年 Transformer 2018年 ELMo、Transformer-decoder、GPT-1、BERT 2019年 Transformer-XL、XLNet、GPT-2 2020年 GPT-3 Transformer 谷歌提出的Transfo 阅读全文
posted @ 2022-01-29 11:22 凌逆战 阅读(3082) 评论(0) 推荐(4) 编辑
摘要: 博客作者:凌逆战 论文地址:DeepFilterNet:基于深度滤波器的全频带音频低复杂度语音增强框架 论文代码:https://github.com/Rikorose/DeepFilterNet 引用:Schröter H, Rosenkranz T, Maier A. DeepFilterNet 阅读全文
posted @ 2022-01-20 21:21 凌逆战 阅读(3399) 评论(5) 推荐(5) 编辑
摘要: 论文地址:TCNN:时域卷积神经网络用于实时语音增强 论文代码:https://github.com/LXP-Never/TCNN(非官方复现) 引用格式:Pandey A, Wang D L. TCNN: Temporal convolutional neural network for real 阅读全文
posted @ 2022-01-18 17:42 凌逆战 阅读(2385) 评论(1) 推荐(2) 编辑
摘要: 论文地址:FLGCNN:一种新颖的全卷积神经网络,用于基于话语的目标函数的端到端单耳语音增强 论文代码:https://github.com/LXP-Never/FLGCCRN(非官方复现) 引用格式:Zhu Y, Xu X, Ye Z. FLGCNN: A novel fully convolut 阅读全文
posted @ 2022-01-12 10:48 凌逆战 阅读(1372) 评论(5) 推荐(1) 编辑
摘要: 论文地址:MetricGAN+:用于语音增强的 MetricGAN 的改进版本 论文代码:https://github.com/JasonSWFu/MetricGAN 引用格式:Fu S W, Yu C, Hsieh T A, et al. MetricGAN+: An Improved Versi 阅读全文
posted @ 2021-12-21 17:02 凌逆战 阅读(2368) 评论(0) 推荐(3) 编辑
摘要: 论文地址:使用感知动机目标和损失的低延迟语音增强 引用格式:Zhang X, Ren X, Zheng X, et al. Low-Delay Speech Enhancement Using Perceptually Motivated Target and Loss[J]. Proc. Inte 阅读全文
posted @ 2021-12-13 11:18 凌逆战 阅读(1049) 评论(7) 推荐(3) 编辑
摘要: 论文地址:一种低复杂度实时增强全频带语音的感知激励方法 论文代码:https://github.com/search?q=PercepNet 引用格式:Valin J M, Isik U, Phansalkar N, et al. A Perceptually Motivated Approach 阅读全文
posted @ 2021-12-12 17:00 凌逆战 阅读(2792) 评论(2) 推荐(2) 编辑
摘要: 论文地址:通过语音增强的电话强化感知损失提高感知质量 论文代码:https://github.com/aleXiehta/PhoneFortifiedPerceptualLoss 引用格式:Hsieh T A, Yu C, Fu S W, et al. Improving Perceptual Qu 阅读全文
posted @ 2021-12-09 08:11 凌逆战 阅读(943) 评论(0) 推荐(0) 编辑
摘要: 论文地址:使用门控卷积循环网络学习复数谱映射以增强单耳语音 代码地址:https://github.com/JupiterEthan/GCRN-complex 作者主页:https://jupiterethan.github.io/ 引用格式:Tan K, Wang D L. Learning co 阅读全文
posted @ 2021-12-08 22:04 凌逆战 阅读(2281) 评论(0) 推荐(1) 编辑
摘要: 论文地址:用于实时语音增强的卷积递归神经网络 代码地址:https://github.com/JupiterEthan/CRN-causal 作者主页:https://jupiterethan.github.io/ 引用格式:Tan K, Wang D L. A Convolutional Recu 阅读全文
posted @ 2021-12-08 18:31 凌逆战 阅读(3294) 评论(0) 推荐(5) 编辑
摘要: 论文地址:基于神经网络的实时语音增强的加权语音失真损失 论文代码:https://github.com/GuillaumeVW/NSNet 引用:Xia Y, Braun S, Reddy C K A, et al. Weighted speech distortion losses for neu 阅读全文
posted @ 2021-12-06 15:25 凌逆战 阅读(1232) 评论(0) 推荐(1) 编辑
摘要: 论文地址:基于深度波形U-Net进行单耳语音增强 论文代码:https://github.com/Hguimaraes/SEWUNet 引用格式:Guimarães H R, Nagano H, Silva D W. Monaural speech enhancement through deep 阅读全文
posted @ 2021-12-01 18:48 凌逆战 阅读(1995) 评论(3) 推荐(0) 编辑
摘要: 论文地址:基于动态注意的递归网络单耳语音增强 论文代码:https://github.com/Andong-Li-speech/DARCN 引用格式:Li, A., Zheng, C., Fan, C., Peng, R., Li, X. (2020) A Recursive Network wit 阅读全文
posted @ 2021-12-01 16:01 凌逆战 阅读(681) 评论(0) 推荐(0) 编辑
摘要: 论文地址:两阶段深度网络的解耦幅度和相位优化 引用格式:Li A, Liu W, Luo X, et al. ICASSP 2021 deep noise suppression challenge: Decoupling magnitude and phase optimization with 阅读全文
posted @ 2021-11-30 12:21 凌逆战 阅读(1048) 评论(2) 推荐(1) 编辑
摘要: 论文名称:扩展卷积密集连接神经网络用于时域实时语音增强 论文代码:https://github.com/ashutosh620/DDAEC 引用:Pandey A, Wang D L. Densely connected neural network with dilated convolution 阅读全文
posted @ 2021-11-26 12:05 凌逆战 阅读(825) 评论(0) 推荐(1) 编辑
摘要: 论文地址:MelGAN:条件波形合成的生成对抗网络 代码地址:https://github.com/descriptinc/melgan-neurips 音频实例:https://melgan-neurips.github.io/ 配有MelGAN解码器的音乐翻译网络:https://www.des 阅读全文
posted @ 2021-11-24 15:44 凌逆战 阅读(1273) 评论(0) 推荐(1) 编辑
摘要: 论文地址:用于端到端语音增强的卷积递归神经网络 论文代码:https://github.com/aleXiehta/WaveCRN 引用格式:Hsieh T A, Wang H M, Lu X, et al. WaveCRN: An efficient convolutional recurrent 阅读全文
posted @ 2021-11-23 17:47 凌逆战 阅读(1330) 评论(0) 推荐(1) 编辑
摘要: 论文地址:在波形域的实时语音增强 论文作者:facebook AI 研究所 论文代码:https://github.com/facebookresearch/denoiser 摘要 我们提出了一个基于原始波形的因果语音增强模型,该模型在笔记本电脑CPU上实时运行。所提出的模型是基于一个带有跳跃连接的 阅读全文
posted @ 2021-11-17 19:50 凌逆战 阅读(1541) 评论(0) 推荐(3) 编辑
摘要: 论文地址:Fullsubnet:实时单通道语音增强的全频带和子频带融合模型 代码地址:https://github.com/haoxiangsnr/FullSubNet 引用格式:Hao X, Su X, Horaud R, et al. FullSubNet: A Full-Band and Su 阅读全文
posted @ 2021-11-10 11:59 凌逆战 阅读(1745) 评论(0) 推荐(1) 编辑
摘要: 作为一个AI工程师,对Linux的一些技能的掌握也能从一定层面反应工程师的资深水平。 要求1:基于SSH的远程访问(本篇文章) 能用一台笔记本电脑,远程登陆一台linux服务器 能随时使用笔记本电脑启动训练任务 能熟练的让代码和文件在笔记本电脑与LINUX服务器之间的传输 要求2:Linux系统的文 阅读全文
posted @ 2021-08-29 19:05 凌逆战 阅读(7268) 评论(0) 推荐(5) 编辑
摘要: 网上已经有很多人翻译了,但我做这工作只是想让自己印象更深刻 论文地址:基于DSP/深度学习的实时全频带语音增强方法 博客地址:https://www.cnblogs.com/LXP-Never/p/15144882.html 论文代码:https://github.com/xiph/rnnoise 阅读全文
posted @ 2021-08-16 20:07 凌逆战 阅读(2387) 评论(0) 推荐(3) 编辑
摘要: 这是很基础的教程,我只是写给自己看,作为一个学习笔记记录一下,如果正在阅读的你觉得简单,请不要批评,可以关掉选择离开 如何学好一门编程语言 掌握基础知识,为将来进一步学习打下良好的基础。 上机实践,通过大量的例题学习怎么设计算法,培养解题思路。 养成良好的编码习惯,注释一定要写,要不然保你一周后自己 阅读全文
posted @ 2021-07-14 12:17 凌逆战 阅读(285) 评论(0) 推荐(0) 编辑
摘要: 论文:2019_Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis 翻译总结:只需5秒音源,这个网络就能实时“克隆”你的声音 代码:Real-Time-Voice-Cloning | 阅读全文
posted @ 2021-06-08 20:33 凌逆战 阅读(1803) 评论(0) 推荐(0) 编辑
摘要: TensorFlow Lite 开源企业:谷歌 GitHub地址:https://github.com/tensorflow/tflite-micro TensorFlow Lite for Microcontrollers 是TensorFlow Lite的实验端口,旨在在只有千字节内存的微控制器 阅读全文
posted @ 2021-06-02 19:45 凌逆战 阅读(6214) 评论(0) 推荐(4) 编辑
摘要: 深度神经网络在人工智能的应用中,包括语音识别、计算机视觉、自然语言处理等各方面,在取得巨大成功的同时,这些深度神经网络需要巨大的计算开销和内存开销,严重阻碍了资源受限下的使用。模型压缩是对已经训练好的深度模型进行精简,进而得到一个轻量且准确率相当的网络,压缩后的网络具有更小的结构和更少的参数,可以有 阅读全文
posted @ 2021-06-02 11:53 凌逆战 阅读(4683) 评论(0) 推荐(2) 编辑
摘要: 引言 深度神经网络模型被广泛应用在图像分类、物体检测等机器视觉任务中,并取得了巨大成功。然而,由于存储空间和功耗的限制,神经网络模型在嵌入式设备上的存储与计算仍然是一个巨大的挑战。 目前工业级和学术界设计轻量化神经网络模型主要有4个方向: 人工设计轻量化神经网络模型 基于神经网络架构搜索(Neura 阅读全文
posted @ 2021-06-02 10:34 凌逆战 阅读(2302) 评论(0) 推荐(2) 编辑
摘要: Group convolution ​ Group convolution最早出现在AlexNet中,是为了解决单卡显存不够,将网络部署到多卡上进行训练而提出。Group convolution可以减少单个卷积1/g的参数量。如何计算的呢? 假设 输入特征的的维度为$HWC_1$; 卷积核的维度为$ 阅读全文
posted @ 2021-06-02 09:22 凌逆战 阅读(438) 评论(0) 推荐(1) 编辑
摘要: 文章作者:凌逆战 文章代码(pytorch实现):https://github.com/LXP-Never/AEC_DeepModel 文章地址(转载请指明出处):https://www.cnblogs.com/LXP-Never/p/14779360.html 写这篇文章的目的: 降低全国想要做基 阅读全文
posted @ 2021-05-21 22:11 凌逆战 阅读(14945) 评论(64) 推荐(60) 编辑
摘要: 我醉了呀,当我花一天翻译完后,发现已经网上已经有现成的了,而且翻译的比我好,哎,造孽呀,但是他写的是论文笔记,而我是纯翻译,能给读者更多的思想和理解空间,并且还有参考文献,也不错哈,反正翻译是写给自己看的 文章方向:语音分离, 论文地址:Conv-TasNet:超越理想的语音分离时频幅度掩蔽 博客地 阅读全文
posted @ 2021-05-15 20:31 凌逆战 阅读(3860) 评论(4) 推荐(6) 编辑
摘要: 大名鼎鼎的UNet和我们经常看到的编解码器模型,他们的模型都是先将数据下采样,也称为特征提取,然后再将下采样后的特征恢复回原来的维度。这个特征提取的过程我们称为“下采样”,这个恢复的过程我们称为“上采样”,本文就专注于神经网络中的下采样和上采样来进行一次总结。写的不好勿怪哈。 神经网络中的降维方法 阅读全文
posted @ 2021-01-09 19:46 凌逆战 阅读(8205) 评论(0) 推荐(5) 编辑
摘要: 众所周知,GitHub是一个巨大的开源宝库,以及程序员和编程爱好者的聚集地,包括我之前推荐的诸多优秀的开源项目全部都是位于GitHub上。但是每当我们看到优秀的开源项目,准备去 下(bai)载(piao) 时,会发现 git clone 的速度异常之慢!这简直太难受了。小项目倒还好,即便是下载,也需 阅读全文
posted @ 2021-01-08 22:56 凌逆战 阅读(9271) 评论(0) 推荐(2) 编辑
摘要: 论文地址:基于高效多任务卷积神经网络的残余声回波抑制 摘要 回声会降低语音通信系统的用户体验,因此需要完全抑制。提出了一种利用卷积神经网络实现实时残余声回波抑制的方法。在多任务学习的背景下,采用双语音检测器作为辅助任务来提高RAES的性能。该训练准则基于一种新的损失函数,我们称之为抑制损失,以平衡残 阅读全文
posted @ 2021-01-08 15:58 凌逆战 阅读(1422) 评论(2) 推荐(6) 编辑
摘要: 论文地址:深度学习用于噪音和双讲场景下的回声消除 博客地址:https://www.cnblogs.com/LXP-Never/p/14210359.html 摘要 传统的声学回声消除(AEC)通过使用自适应算法识别声学脉冲响应来工作。 我们将AEC公式化为有监督的语音分离问题,该问题将说话人信号和 阅读全文
posted @ 2020-12-31 16:17 凌逆战 阅读(2568) 评论(5) 推荐(6) 编辑
摘要: 本文代码请见:https://github.com/Ryuk17/SpeechAlgorithms 博客地址(转载请指明出处):https://www.cnblogs.com/LXP-Never/p/14142108.html 如果你觉得写得还不错,点赞👍,关注是对我最大的支持,谢谢😃 传统的语 阅读全文
posted @ 2020-12-25 22:35 凌逆战 阅读(18225) 评论(25) 推荐(31) 编辑
摘要: 论文地址:声学回声消除与双信号变换LSTM网络 预训练模型:https://github.com/breizhn/DTLN-aec 论文代码:https://github.com/breizhn/DTLN 博客作者: 摘要 本文将双信号变换LSTM网络(dual-signal transformat 阅读全文
posted @ 2020-12-15 19:13 凌逆战 阅读(1529) 评论(0) 推荐(2) 编辑
摘要: 神经网络中最重要的就是参数了,其中包括权重项$W$和偏置项$b$。 我们训练神经网络的最终目的就是得到最好的参数,使得目标函数取得最小值。参数的初始化也同样重要,因此微调受到很多人的重视, 只列一些常用的! Tensorflow 常数初始化 tf.constant_initializer(value 阅读全文
posted @ 2020-11-10 17:45 凌逆战 阅读(2671) 评论(0) 推荐(0) 编辑
摘要: 我最近在学使用Pytorch写GAN代码,发现有些代码在训练部分细节有略微不同,其中有的人用到了detach()函数截断梯度流,有的人没用detch(),取而代之的是在损失函数在反向传播过程中将backward(retain_graph=True),本文通过两个 gan 的代码,介绍它们的作用,并分 阅读全文
posted @ 2020-11-09 23:40 凌逆战 阅读(5636) 评论(5) 推荐(5) 编辑
摘要: pytorch对一下常用的公开数据集有很方便的API接口,但是当我们需要使用自己的数据集训练神经网络时,就需要自定义数据集,在pytorch中,提供了一些类,方便我们定义自己的数据集合 torch.utils.data.Dataset:所有继承他的子类都应该重写 __len()__ , __geti 阅读全文
posted @ 2020-11-09 12:16 凌逆战 阅读(4190) 评论(2) 推荐(7) 编辑
摘要: 博客作者:凌逆战 博客地址:https://www.cnblogs.com/LXP-Never/p/13404523.html 音频时域波形具有以下特征:音调,响度,质量。我们在进行数据增强时,最好只做一些小改动,使得增强数据和源数据存在较小差异即可,切记不能改变原有数据的结构,不然将产生“脏数据” 阅读全文
posted @ 2020-10-02 22:05 凌逆战 阅读(21077) 评论(21) 推荐(22) 编辑