摘要: 正则解析模块re re模块使用流程 方法一 r_list=re.findall('正则表达式',html,re.S) 方法二 创建正则编译对象 pattern = re.compile('正则表达式',re.S)r_list = pattern.findall(html) 正则表达式元字符:http 阅读全文
posted @ 2019-09-06 09:07 凌逆战 阅读(2143) 评论(0) 推荐(3) 编辑
摘要: 算法原理 用一句话总结决策树的核心思想:相似的输入必会产生相似的输出。 例如预测某人薪资: 年龄:1-青年,2-中年,3-老年 学历:1-本科,2-硕士,3-博士 经历:1-出道,2-一般,3-老手,4-骨灰 性别:1-男性,2-女性 为了提高搜索效率,使用树形数据结构处理样本数据: $$年龄=1\ 阅读全文
posted @ 2019-09-06 09:04 凌逆战 阅读(823) 评论(0) 推荐(2) 编辑
摘要: 控制台抓包 打开方式及常用选项 1、打开浏览器,F12打开控制台,找到Network选项卡 2、控制台常用选项 1、Network: 抓取网络数据包 1、ALL: 抓取所有的网络数据包 2、XHR:抓取异步加载的网络数据包 3、JS : 抓取所有的JS文件 2、Sources: 格式化输出并打断点调 阅读全文
posted @ 2019-09-05 08:48 凌逆战 阅读(8118) 评论(3) 推荐(3) 编辑
摘要: 常见的反爬机制及处理方式 1、Headers反爬虫 :Cookie、Referer、User-Agent 解决方案: 通过F12获取headers,传给requests.get()方法 2、IP限制 :网站根据IP地址访问频率进行反爬,短时间内进制IP访问 解决方案: 1、构造自己IP代理池,每次访 阅读全文
posted @ 2019-09-04 19:49 凌逆战 阅读(9015) 评论(2) 推荐(7) 编辑
摘要: 网络爬虫也称为网络蜘蛛、网络机器人,抓取网络的数据。其实就是用Python程序模仿人点击浏览器并访问网站,而且模仿的越逼真越好。一般爬取数据的目的主要是用来做数据分析,或者公司项目做数据测试,公司业务所需数据。而数据来源可以来自于公司内部数据,第三方平台购买的数据,还可以通过网络爬虫爬取数据。pyt 阅读全文
posted @ 2019-09-03 10:15 凌逆战 阅读(669) 评论(0) 推荐(0) 编辑
摘要: 字符串常用方法 csv模块 作用:将爬取的数据存放到本地的csv文件中 使用流程 Windows中使用csv模块默认会在每行后面添加一个空行,使用newline=''可解决 with open('xxx.csv','w',newline='') as f: 猫眼电影top100抓取案例 确定URL网 阅读全文
posted @ 2019-09-03 09:35 凌逆战 阅读(1477) 评论(0) 推荐(0) 编辑
摘要: 地址和请求头参数--url和header res = requests.get(url,headers=headers) 向网站发起请求,并获取响应对象 参数 url :需要抓取的URL地址 headers : 请求头 timeout : 超时时间,超过时间会抛出异常 响应对象(res)属性 enc 阅读全文
posted @ 2019-09-02 14:50 凌逆战 阅读(16903) 评论(0) 推荐(24) 编辑
摘要: 数据预处理 数据预处理的过程: 输入数据 -> 模型 -> 输出数据 如下图所示为数据样本矩阵,则一行一样本,一列一特征。机器学习中有一个数据预处理的库,是一个解决机器学习问题的科学计算工具包 sklearn.preprocessing。 年龄学历经验性别月薪 25 硕士 2 女 10000 20 阅读全文
posted @ 2019-09-01 14:24 凌逆战 阅读(1614) 评论(0) 推荐(3) 编辑
摘要: MNIST手写数字集 MNIST是一个由美国由美国邮政系统开发的手写数字识别数据集。手写内容是0~9,一共有60000个图片样本,我们可以到MNIST官网免费下载,总共4个.gz后缀的压缩文件,该文件是二进制内容。 文件名 大小 用途 train-images-idx3-ubyte.gz 9.45M 阅读全文
posted @ 2019-07-19 17:37 凌逆战 阅读(3677) 评论(2) 推荐(3) 编辑
摘要: 作者:凌逆战 地址:https://www.cnblogs.com/LXP-Never/p/10763804.html 在看这两个函数之前,我们需要先了解一维卷积(conv1d)和二维卷积(conv2d),二维卷积是将一个特征图在width和height两个方向进行滑动窗口操作,对应位置进行相乘求和 阅读全文
posted @ 2019-07-19 17:36 凌逆战 阅读(16863) 评论(8) 推荐(5) 编辑
摘要: Git简介 git是一个开源的分布式版本控制系统,用于多人协同开发项目的代码管理工具。 1、代码管理工具的用途 防止代码丢失,做备份 项目的版本管理和控制,可以通过设置节点进行跳转 建立各自的开发环境分支,互不影响,方便合并 在多终端开发时,方便代码的相互传输 2、git的特点 git是开源的,多在 阅读全文
posted @ 2019-07-18 19:49 凌逆战 阅读(1156) 评论(0) 推荐(4) 编辑
摘要: 引言 文本处理已经成为计算机常见工作之一, 对文本的搜索、定位、提取的逻辑往往比较复杂, 为了解决上述问题,产生正则表达式技术 正则表达式即文本的高级匹配模式,提供搜索,替代,获取等功能。本质是由一系列特殊符号和字符构成的自串,这个自串就是正则表达式。 正则表达式能够方便地进行检索和修改等文本操作; 阅读全文
posted @ 2019-07-15 17:58 凌逆战 阅读(1274) 评论(0) 推荐(4) 编辑
摘要: Linux命令格式:命令名 选项 参数 Linux 刚面世时并没有图形界面,所有的操作全靠命令完成,如 磁盘操作、文件存取、目录操作、进程管理、文件权限 设定等,在职场中,大量的服务器维护工作都是在远程通过SSH 客户端来完成的,并没有图形界面,所有的维护工作,都需要通过命令来完成,在职场中,作为后 阅读全文
posted @ 2019-07-14 17:19 凌逆战 阅读(918) 评论(0) 推荐(5) 编辑
摘要: 前言 对于传统的深度学习网络应用来说,网络越深,所能学到的东西越多。当然收敛速度也就越慢,训练时间越长。但是如果简单地增加深度,会导致梯度弥散或梯度爆炸。对于该问题的解决方法是正则化初始化和在中间加入Batch Normalization,这样的话可以训练几十层的网络。 虽然通过上述方法 深层网络能 阅读全文
posted @ 2019-07-06 15:37 凌逆战 阅读(6124) 评论(0) 推荐(2) 编辑
摘要: TCP服务端(以字节串传输信息) import socket 1、创建套接字 sockfd = socket.socket(socket_family = AF_INET,socket_type = SOCK_STREAM,proto = 0) 功能:创建一个IPv4的流式套接字,括号中的创建IPv 阅读全文
posted @ 2019-07-06 08:44 凌逆战 阅读(765) 评论(0) 推荐(2) 编辑
摘要: sys.argv 在终端运行python 1.py hahah import sys print(sys.argv) # ['1.py', 'hahah'] argparse Python的命令行解析模块,这是一个python的内置库,通过在程序中我们定义好的参数,argparse将会从sys.ar 阅读全文
posted @ 2019-07-06 08:34 凌逆战 阅读(2954) 评论(0) 推荐(2) 编辑
摘要: os的文件操作 os.path import os print(os.path.splitext('./data/large.wav')) # 分离文件名和后缀名 ('./data/large', '.wav') print(os.path.splitext('./data/large')) # 分 阅读全文
posted @ 2019-07-01 09:59 凌逆战 阅读(2234) 评论(0) 推荐(1) 编辑
摘要: 模拟 / 数字滤波器 模拟滤波器(Analog Filter)是一种基于连续时间信号进行滤波的滤波器。它接受连续时间信号作为输入,并输出经过滤波处理后的连续时间信号。模拟滤波器通常使用电子元件(如电容、电感、电阻)来实现滤波功能。模拟滤波器广泛应用于模拟电路、音频放大器等领域。 计算模拟滤波器的频率 阅读全文
posted @ 2019-05-29 22:14 凌逆战 阅读(6815) 评论(0) 推荐(7) 编辑
摘要: 插值interpolate模块 计算插值有两个基本方法: 1、对一个完整的数据集去拟合一个函数(一条线穿过所有数据集的点) 2、对数据集的不同部分拟合出不同的函数,而函数之间的曲线平滑对接 一维插值 interp1d(x, y, kind='linear', ...) x和y参数是一系列已知的数据点 阅读全文
posted @ 2019-04-10 16:29 凌逆战 阅读(7351) 评论(0) 推荐(2) 编辑
摘要: 数字信号 连续时间信号:在连续时间范围内定义的信号,信号的幅度可以是连续的(模拟信号),也可以是离散的 离散时间信号:时间为离散变量的信号,即独立变量时间被量化了,而幅度仍是连续变化的 数字信号:时间离散并且幅度量化的信号,如果是二进制量化,只有1,0两种模式的信号。四进制数字信号只有四种取值,以此 阅读全文
posted @ 2019-03-29 10:46 凌逆战 阅读(8052) 评论(0) 推荐(14) 编辑
摘要: Makefile简介 很多大型项目的编译都是通过Makefile来组织各种库和代码之间的依赖关系。Makefile不仅可以用来编译项目还可以用来组织我们一些日常操作 Makefile是和make命令一起配合使用的,Makefile就像shell脚本一样,同时执行操作系统的命令 Makefile的好处 阅读全文
posted @ 2019-03-26 19:19 凌逆战 阅读(703) 评论(0) 推荐(1) 编辑
摘要: 论文地址:使用神经网络的音频超分辨率 作者:Volodymyr Kuleshov, S. Zayd Enam, and Stefano Ermon 论文:Audio Super Resolution with Neural Networks 论文主页:https://kuleshov.github. 阅读全文
posted @ 2019-03-25 10:00 凌逆战 阅读(1054) 评论(0) 推荐(1) 编辑
摘要: 语音信号的预处理 语音信号的频带范围通常是300~3400Hz,一般情况下取采样率为8kHz,本博客的部分代码采用的是已经数字化了的语音。 预加重 预加重的目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率。 一般通过使用一阶FIR高通数字滤波器来实现预加重,滤波器函数为: 阅读全文
posted @ 2019-02-28 20:33 凌逆战 阅读(3085) 评论(0) 推荐(2) 编辑
摘要: 我们之前所学的全连接神经网络(DNN)和卷积神经网络(CNN),他们的前一个输入和后一个输入是没有关系的。但是当我们处理序列信息的时候,某些前面的输入和后面的输入是有关系的,比如:当我们在理解一句话意思时,孤立的理解这句话的每个词是不够的,我们需要处理这些词连接起来的整个序列;这个时候我们就需要使用 阅读全文
posted @ 2019-02-17 15:16 凌逆战 阅读(8596) 评论(5) 推荐(11) 编辑
摘要: numpy是机器学习里面基础数字算法库,补充了python语言缺乏的数字计算能力,Numpy底层由C语言实现,运行效率充分优化。2006年,Numpy脱离Scipy成为独立的项目。 ndarry数组 np.array() 传入数组参数,可以是一维的也可以是二维三维的,数组会将其转变成ndarray结 阅读全文
posted @ 2019-01-16 11:25 凌逆战 阅读(1013) 评论(1) 推荐(0) 编辑
摘要: 用Keras定义网络模型有两种方式, Sequential 顺序模型 Keras 函数式 API模型 之前我们介绍了Sequential顺序模型,今天我们来接触一下 Keras 的函数式API模型。 函数式API:全连接网络 多输入多输出模型 主要负责用函数式API来实现它 主要输入接收新闻标题本身 阅读全文
posted @ 2019-01-16 10:03 凌逆战 阅读(1119) 评论(0) 推荐(0) 编辑
摘要: keras是基于tensorflow封装的的高级API,Keras的优点是可以快速的开发实验,它能够以TensorFlow, CNTK, 或者 Theano 作为后端运行。 模型构建 最简单的模型是 Sequential 顺序模型,它由多个网络层线性堆叠。对于更复杂的结构,你应该使用 Keras 函 阅读全文
posted @ 2019-01-16 09:38 凌逆战 阅读(1616) 评论(0) 推荐(0) 编辑
摘要: 博客地址:https://www.cnblogs.com/LXP-Never/p/10008693.html 博客作者:凌逆战 本教程对应的tensorflow版本为:tensorflow 1版本 简介 深度学习的框架有很多:TensorFlow、Caffe、Theano、Torch...Tenso 阅读全文
posted @ 2019-01-14 20:47 凌逆战 阅读(2475) 评论(1) 推荐(1) 编辑
摘要: “sample”“batch”“epoch” Sample:样本,比如:一张图像是一个样本,一段音频也是一个样本。 Batch:批,含有N个样本的集合。每一个batch的样本都是独立的并行处理。在训练是,一个batch的结果只会用来更新一次模型。 Epoch:轮次,通常通常定义为 [在整个数据集上的 阅读全文
posted @ 2019-01-12 14:41 凌逆战 阅读(1962) 评论(0) 推荐(2) 编辑
摘要: 神经网络不是具体的算法,而是一种模型构造的思路或者方式,全连接神经网络每一个神经元节点的输入都来自于上一层的每个神经元的输出,好处在于每个输入维度的信息都会传播到其后的任意一个结点中去,会最大程度地让整个网络中的节点都不会“漏掉”这个维度所贡献的因素。不过他的缺点更加明显,那就是整个网络由于都是“全 阅读全文
posted @ 2019-01-10 11:57 凌逆战 阅读(3660) 评论(2) 推荐(5) 编辑
摘要: lstrip()方法 lstrip() 方法用于截掉字符串左边的空格或指定字符 str.lstrip([chars]) 截掉指定的字符char 返回截掉指定字符的字符串 str = " this is string example....wow!!! "; print( str.lstrip() ) 阅读全文
posted @ 2019-01-06 10:17 凌逆战 阅读(1017) 评论(0) 推荐(2) 编辑
摘要: Shell即是一种命令语言,又是一种程序设计语言,使用者可以通过Shell访问操作系统的内核服务。 Shell编程和java、python、C一样,只要一个能编写代码的文本编辑器和一个能解释执行的脚本解释器就可以了,Linux的Shell种类众多,我们只需要关注 Bash(Bourne Again 阅读全文
posted @ 2019-01-02 18:17 凌逆战 阅读(1007) 评论(0) 推荐(3) 编辑
摘要: 论文和代码都在这个地址。 作者:Somesh Ganesh;单位:Georgia Tech Center for Music Technology,Georgia Institute of Technology;Email:someshg94@gatech.edu 博客地址(转载请指明出处):htt 阅读全文
posted @ 2018-12-18 22:12 凌逆战 阅读(906) 评论(0) 推荐(0) 编辑
摘要: 作者:凌逆战(转载请注明出处) 博客园地址:https://www.cnblogs.com/LXP-Never/p/10078200.html 音频信号的读写、播放及录音 python已经支持WAV格式的书写,而实时的声音输入输出需要安装pyAudio(http://people.csail.mit 阅读全文
posted @ 2018-12-17 10:19 凌逆战 阅读(34279) 评论(10) 推荐(44) 编辑
摘要: 论文地址:基于生成对抗网络的语音频带扩展 博客作者(引用请指明出处):https://www.cnblogs.com/LXP-Never/p/10121897.html 摘要 语音盲带宽扩展技术已经出现了一段时间,但到目前为止还没有出现广泛的部署,部分原因是增加的带宽伴随着附加的工件。本文提出了三代 阅读全文
posted @ 2018-12-17 00:29 凌逆战 阅读(634) 评论(0) 推荐(2) 编辑
摘要: 论文地址:基于生成对抗网络的语音增强 博客地址(转载请指明出处):https://www.cnblogs.com/LXP-Never/p/9986744.html SEGAN的例子 摘要 当前的语音增强技术是在频谱域或利用一些高级特征的基础上进行的。他们中的大多数人处理的噪音条件有限,并依赖于一阶统 阅读全文
posted @ 2018-12-16 12:01 凌逆战 阅读(1517) 评论(0) 推荐(7) 编辑
摘要: 全连接神经网络(DNN)是最朴素的神经网络,它的网络参数最多,计算量最大。 网络结构 DNN的结构不固定,一般神经网络包括输入层、隐藏层和输出层,一个DNN结构只有一个输入层,一个输出层,输入层和输出层之间的都是隐藏层。每一层神经网络有若干神经元(下图中蓝色圆圈),层与层之间神经元相互连接,层内神经 阅读全文
posted @ 2018-11-18 20:22 凌逆战 阅读(18974) 评论(0) 推荐(9) 编辑
摘要: 准备 python有两个版本Python2 python3,目前社会包括公司主要是用pyhton2,但是python2官方将在2020年停止支持,所以用python3吧,python和python的差别不大,我们学会了python3,是能够看懂python2代码的。 python是一种脚本语言,一般 阅读全文
posted @ 2018-11-14 17:20 凌逆战 阅读(598) 评论(0) 推荐(1) 编辑
摘要: 入门 MATLAB的语句后面要加分号;表示结束语句。 MTALAB命令行窗口的显示格式 指令 说明 实例 format 默认格式 271.82 format short / format long 显示小数点后4位 / 14位 2718.2 / 2.746468468 format short e 阅读全文
posted @ 2018-10-17 17:57 凌逆战 阅读(1418) 评论(0) 推荐(0) 编辑
摘要: 决策树是根据树结构来进行决策的,决策树的最终结果对应了我们所希望的判定结果。一般的一棵树包含一个根节点、若干个内部节点和若干个叶节点;叶结点对应了决策树的结果,其他每个节点对应于一个属性测试;每个结点根据属性测试的结果别划分到子结点中;根结点包含样本的全集。 决策树的生成是一个递归过程,有三种情况会 阅读全文
posted @ 2018-10-16 17:53 凌逆战 阅读(759) 评论(0) 推荐(0) 编辑