摘要: 导入所需的python库 import os from moviepy.editor import * from pydub import AudioSegment # video = VideoFileClip("./test.mp4") 1 提取背景音乐 video = VideoFileCli 阅读全文
posted @ 2021-04-23 18:52 爱吃西瓜的菜鸟 阅读(1682) 评论(0) 推荐(0) 编辑
摘要: 利用keras实现MobileNet,并以mnist数据集作为一个小例子进行识别。使用的环境是:tensorflow-gpu 2.0,python=3.7 , GTX-2070的GPU 1.导入数据 首先是导入两行魔法命令,可以多行显示. %config InteractiveShell.ast_n 阅读全文
posted @ 2020-11-27 13:20 爱吃西瓜的菜鸟 阅读(2741) 评论(1) 推荐(3) 编辑
摘要: 1.1 LAS产生label的计算 LAS是可以看做能够直接计算给定一段acoustic feature时输出token sequences的概率,即$p(Y|X)\(,LAS每次给定一个acoustic feature就会产生一个token 的概率,将所有的概率乘起来就是token sequenc 阅读全文
posted @ 2020-11-26 12:34 爱吃西瓜的菜鸟 阅读(827) 评论(0) 推荐(0) 编辑
摘要: LAS是Listen(Encoder),Attend,和Spell(Decoder)的简称 第一个步骤Listen(Encoder) listen的作用是输入一段语音信号,输出一段向量,去掉语音中的杂序,只保留和语音有关的部分。 上图中acoustic features表示的是每一帧的声音信号。 l 阅读全文
posted @ 2020-11-25 21:58 爱吃西瓜的菜鸟 阅读(729) 评论(0) 推荐(0) 编辑
摘要: #1. 语音识别的本质 语音识别的本质就是将一段声音信号转换为文字: 左边的彩色框框代表的是对语音信号进行特征提取后的每一帧的数据。T代表的是帧数,d代表的应该是滤波器个数(特征提取里面有一段是需要经过mel滤波器),即每一帧的维度。token可以理解为你训练时候词典的构成的最小元素。根据自己选择的 阅读全文
posted @ 2020-11-25 21:55 爱吃西瓜的菜鸟 阅读(315) 评论(0) 推荐(0) 编辑
摘要: 这里只是简单的一个例子 输入序列 目标序列 [13, 28, 18, 7, 9, 5] [18, 28, 13] [29, 44, 38, 15, 26, 22] [38, 44, 29] [27, 40, 31, 29, 32, 1] [31, 40, 27] #1.输入序列与目标序列向量化 设置 阅读全文
posted @ 2020-11-24 23:15 爱吃西瓜的菜鸟 阅读(562) 评论(0) 推荐(1) 编辑
摘要: ReeNet论文地址:Deep Residual Learning for Image Recognition #Resnet的两种不同结构 上图左边的结构主要是针对深度较少的网络,当深度较大时则用右边的结构。 #ResNet与VGG的不同 #Resnet整体结构 ResNet的关键点 利用残差结构 阅读全文
posted @ 2020-11-15 15:26 爱吃西瓜的菜鸟 阅读(449) 评论(0) 推荐(1) 编辑