2019年1月22日
摘要: 原 深度学习人脸关键点检测方法 综述 置顶 2017年12月25日 10:55:50 TensorSense 阅读数:17381 版权声明:本文为TensorSense原创文章, 转载请注明出处, 转载请注明出处 ! https://blog.csdn.net/u011995719/article/ 阅读全文
posted @ 2019-01-22 11:04 体态的滑翔机 阅读(1010) 评论(0) 推荐(0) 编辑
  2018年12月3日
摘要: 任何的自动语音识别系统中,第一步一般都是提取特征,也就是把音频信号中具有辨识性的成分提取出来,舍弃掉其他不相关的信息,比如背景噪音等等。而语音的特征提取本质上是降低信号的冗余度,用较少的数据表现语音的特征。 这里,这段语音被分为很多帧,每帧语音都对应于一个频谱(通过短时FFT计算),频谱表示频率与能 阅读全文
posted @ 2018-12-03 15:16 体态的滑翔机 阅读(419) 评论(0) 推荐(0) 编辑
  2018年11月11日
摘要: 阅读全文
posted @ 2018-11-11 21:20 体态的滑翔机 阅读(147) 评论(0) 推荐(0) 编辑
  2018年10月12日
摘要: 一、音视频封装格式 作为音频视频的容器定义,一般封装格式都允许你无压缩插入各种编码的原始数据而不是再编一次码,不同封装格式对文件大小影响可以忽略不计 ts:适合网络流媒体播放,将一段视频无损拆成多段,客户端播放时可以一段一段缓冲 mp4:一条视频轨和一条音频轨,适合大多数设备,兼容性最好 mkv:可 阅读全文
posted @ 2018-10-12 18:20 体态的滑翔机 阅读(500) 评论(0) 推荐(0) 编辑
  2018年7月7日
摘要: The challenge of realistic music generation: modelling raw audio at scale 作者:Deep mind三位大神 出处:NIPS 2018 Abstract 首先提出了基于表达方式的音乐生成(high-level represent 阅读全文
posted @ 2018-07-07 16:39 体态的滑翔机 阅读(385) 评论(0) 推荐(0) 编辑
  2018年6月27日
摘要: 首先要帮Caffe甩个锅:Caffe对图像处理进行了很高明的封装,以protobuffer形式组织的搭积木式的网络构建也很灵活方便,这里的坑都是自己腿不好,走路不稳崴进去的。 1. Caffe的一个iter是一个batch,不是一个epoch。 2. 使用现有模型存档对网络进行fine_tune的时 阅读全文
posted @ 2018-06-27 14:37 体态的滑翔机 阅读(665) 评论(0) 推荐(0) 编辑
  2018年5月24日
摘要: 目录 一、引言 二、轻量化模型 2.1 SqueezeNet 2.2 MobileNet 2.3 ShuffleNet 2.4 Xception 三、网络对比 一、引言 自 2012 年 AlexNet 以来,卷积神经网络(简称 CNN)在图像分类、图像分割、目标检测等领域获得广泛应用。随着性能要求 阅读全文
posted @ 2018-05-24 14:13 体态的滑翔机 阅读(9439) 评论(1) 推荐(2) 编辑
  2018年5月9日
摘要: 阅读全文
posted @ 2018-05-09 15:25 体态的滑翔机 阅读(1617) 评论(0) 推荐(0) 编辑
  2018年3月21日
摘要: 官方博客 WaveNet: A Generative Model for Raw Audio paper地址:paper Abstract WaveNet是probabilistic and autoregressive的生成,对每个预测的audio sample的分布都基于前面的前面的sample 阅读全文
posted @ 2018-03-21 11:33 体态的滑翔机 阅读(5204) 评论(0) 推荐(0) 编辑
  2018年3月17日
摘要: 出处:ICLR 2017 Motivation 提出一个通用的基于RNN的pop music生成模型,在层次结构中封装了先验乐理知识(prior knowledge about how pop music is composed)。bottom layers生成旋律,higher levels生成鼓 阅读全文
posted @ 2018-03-17 16:08 体态的滑翔机 阅读(906) 评论(0) 推荐(0) 编辑