爱吃西瓜的菜鸟

2021年4月23日

摘要：导入所需的python库 import os from moviepy.editor import * from pydub import AudioSegment # video = VideoFileClip("./test.mp4") 1 提取背景音乐 video = VideoFileCli 阅读全文

posted @ 2021-04-23 18:52 爱吃西瓜的菜鸟阅读(1682) 评论(0) 推荐(0) 编辑

2020年11月27日

keras实现MobileNet

摘要：利用keras实现MobileNet，并以mnist数据集作为一个小例子进行识别。使用的环境是:tensorflow-gpu 2.0,python=3.7 , GTX-2070的GPU 1.导入数据首先是导入两行魔法命令，可以多行显示. %config InteractiveShell.ast_n 阅读全文

posted @ 2020-11-27 13:20 爱吃西瓜的菜鸟阅读(2741) 评论(1) 推荐(3) 编辑

2020年11月26日

HMM、CTC、RNN-T训练时所有alignment的寻找方法

摘要： 1.1 LAS产生label的计算 LAS是可以看做能够直接计算给定一段acoustic feature时输出token sequences的概率，即$p(Y|X)\(,LAS每次给定一个acoustic feature就会产生一个token 的概率，将所有的概率乘起来就是token sequenc 阅读全文

posted @ 2020-11-26 12:34 爱吃西瓜的菜鸟阅读(827) 评论(0) 推荐(0) 编辑

2020年11月25日

语音识别2 -- Listen,Attend,and Spell (LAS)

摘要： LAS是Listen(Encoder),Attend,和Spell(Decoder)的简称第一个步骤Listen(Encoder) listen的作用是输入一段语音信号，输出一段向量,去掉语音中的杂序，只保留和语音有关的部分。上图中acoustic features表示的是每一帧的声音信号。 l 阅读全文

posted @ 2020-11-25 21:58 爱吃西瓜的菜鸟阅读(729) 评论(0) 推荐(0) 编辑

语音识别 1--概述

摘要： #1. 语音识别的本质语音识别的本质就是将一段声音信号转换为文字：左边的彩色框框代表的是对语音信号进行特征提取后的每一帧的数据。T代表的是帧数，d代表的应该是滤波器个数(特征提取里面有一段是需要经过mel滤波器)，即每一帧的维度。token可以理解为你训练时候词典的构成的最小元素。根据自己选择的阅读全文

posted @ 2020-11-25 21:55 爱吃西瓜的菜鸟阅读(315) 评论(0) 推荐(0) 编辑

2020年11月24日

keras中seq2seq实现

摘要：这里只是简单的一个例子输入序列目标序列 [13, 28, 18, 7, 9, 5] [18, 28, 13] [29, 44, 38, 15, 26, 22] [38, 44, 29] [27, 40, 31, 29, 32, 1] [31, 40, 27] #1.输入序列与目标序列向量化设置阅读全文

posted @ 2020-11-24 23:15 爱吃西瓜的菜鸟阅读(562) 评论(0) 推荐(1) 编辑

2020年11月15日

ResNet模型

摘要： ReeNet论文地址：Deep Residual Learning for Image Recognition #Resnet的两种不同结构上图左边的结构主要是针对深度较少的网络，当深度较大时则用右边的结构。 #ResNet与VGG的不同 #Resnet整体结构 ResNet的关键点利用残差结构阅读全文

posted @ 2020-11-15 15:26 爱吃西瓜的菜鸟阅读(449) 评论(0) 推荐(1) 编辑

周霖

公告