09 2018 档案
发表于 2018-09-29 17:08阅读:126评论:0推荐:0
摘要:命令 在shell脚本程序内部可以执行两类命令。一类是可以在命令提示符中执行的"普通"命令,也称为外部命令,一类是"内置"命令,也成为内部命令。内置命令是在shell内部实现的,它们不能作为外部程序被调用。然后,大多数的内部命令同时也提供了独立运行的程序版本,这是POSIX规范的一部分。 break
阅读全文 »
发表于 2018-09-29 10:53阅读:342评论:0推荐:0
摘要:常用的深度学习框架 选用的参考依据: 便于编程 运行速度 是否真的开放 TensorFlow 使用Tensorflow求使损失函数最小的参数: 输出: 如果觉得上面计算的形式表示复杂,可以将上面表达式的书写形式修改为: 如果你想要最小化的函数是训练集函数
阅读全文 »
发表于 2018-09-24 21:36阅读:785评论:0推荐:0
摘要:训练一个 Softmax 分类器( Training a Softmax classifier) Softmax 这个名称的来源是与所谓hardmax 对比, hardmax会把向量z变成这个向量: hardmax 函数会观察z的元素,然后在z中最大元素的位置放上 1,其它位置放上 0,所以这是一个
阅读全文 »
发表于 2018-09-24 16:23阅读:394评论:0推荐:0
摘要:Softmax 回归(Softmax regression) 我们讲到过的分类的例子都使用了二分分类,这种分类只有两种可能的标记 0 或 1,这是一只猫或者不是一只猫,如果我们有多种可能的类型的话呢?有一种 logistic回归的一般形式,叫做 Softmax 回归,能让你在试图识别某一分类时做出预
阅读全文 »
发表于 2018-09-24 14:41阅读:1904评论:1推荐:1
摘要:测试时的 Batch Norm( Batch Norm at test time) Batch 归一化将你的数据以 mini-batch 的形式逐一处理,但在测试时,你可能需要对每个样本逐一处理: ${\sigma
阅读全文 »
发表于 2018-09-24 14:38阅读:581评论:0推荐:0
摘要:Batch Norm 为什么奏效?( Why does Batch Norm work?) 一个原因是,你已经看到如何归一化输入特征值x,使其均值为 0,方差 1,它又是怎样加速学习的,有一些从 0 到 1 而不是从 1 到 1000 的特征值,通过归一化所有的输入特征值x,以获得类似范围的值,可以
阅读全文 »
发表于 2018-09-24 14:30阅读:605评论:0推荐:0
摘要:将 Batch Norm 拟合进神经网络( Fitting Batch Norm into a neural network) 假设现有如下的神经网络: 可以认为每个单元负责计算两件事情:第一,先计算z,然后应用到激活函数中再计算a,所以,可以认为,每个圆圈代表着两步计算。 如果没有应用Batch归
阅读全文 »
发表于 2018-09-19 11:02阅读:967评论:0推荐:0
摘要:归一化网络的激活函数( Normalizing activations in a network) 在深度学习兴起后,最重要的一个思想是它的一种算法,叫做 Batch 归一化。Batch 归一化会使你的参数搜索问题变得很容易,使神经网络对超参数的选择更加稳定,超参数的范围会更加庞大,工作效果也很好,
阅读全文 »
发表于 2018-09-19 10:58阅读:594评论:0推荐:0
摘要:超参数训练的实践: Pandas VS Caviar( Hyperparameters tuning in practice: Pandas vs. Caviar) 每隔几个月需要重新测试或评估超参数。 关于如何搜索超参数的问题,通常采用的两种重要但不同的方式:熊猫方式和鱼子酱方式。 熊猫方式: 你
阅读全文 »
发表于 2018-09-18 22:41阅读:774评论:0推荐:0
摘要:为超参数选择合适的范围( Using an appropriate scale to pick hyperparameters) 随机取值可以提升你的搜索效率。但随机取值并不是在有效范围内的随机均匀取值,而是选择合适的标尺,用于探究这些超参数,这很重要。 假设你要选取隐藏单元的数量${n^{[l]}
阅读全文 »
发表于 2018-09-18 20:50阅读:377评论:0推荐:0
摘要:调试处理( Tuning process) 按照参数的重要性依次排列: 学习速率 Momentum(动量梯度下降法)的参数 如果使用Adam 优化算法的参数,,,但是通常使用默认值:0.9,0.
阅读全文 »
发表于 2018-09-17 12:58阅读:1004评论:0推荐:0
摘要:局部最优的问题(The problem of local optima) 人们总是担心优化算法会困在极差的局部最优, 不过随着深度学习理论不断发展,我们对局部最优的理解也发生了改变。 这是曾经人们在想到局部最优时脑海里会出现的图,也许你想优化一些参数,我们把它们称之为和,
阅读全文 »
发表于 2018-09-17 12:55阅读:744评论:0推荐:0
摘要:学习率衰减(Learning rate decay) 加快学习算法的一个办法就是随时间慢慢减少学习率,我们将之称为学习率衰减。 假设你要使用 mini-batch 梯度下降法, mini-batch 数量不大,大概 64 或者 128 个样本,在迭代过程中会有噪音( 蓝色线),下降朝向这里的最小值,
阅读全文 »
发表于 2018-09-16 21:33阅读:667评论:0推荐:0
摘要:Adam 优化算法(Adam optimization algorithm) Adam 优化算法基本上就是将 Momentum 和 RMSprop 结合在一起。 使用 Adam 算法,首先你要初始化,,,,${S_{
阅读全文 »
发表于 2018-09-16 16:11阅读:2036评论:0推荐:0
摘要:RMSprop 知道了动量( Momentum)可以加快梯度下降,还有一个叫做 RMSprop 的算法,全称是 root mean square prop 算法,它也可以加速梯度下降: 如果你执行梯度下降,虽然横轴方向正在推进,但纵轴方向会有大幅度摆动,为了分析这个例子,假设纵轴代表参数b,横轴代表
阅读全文 »
发表于 2018-09-16 12:17阅读:5307评论:0推荐:0
摘要:动量梯度下降法(Gradient descent with Momentum) 还有一种算法叫做 Momentum,或者叫做动量梯度下降法,运行速度几乎总是快于标准的梯度下降算法,简而言之,基本的想法就是计算梯度的指数加权平均数,并利用该梯度更新你的权重。 如果你要优化成本函数,函数形状如图,红点代
阅读全文 »
发表于 2018-09-15 21:49阅读:1360评论:0推荐:0
摘要:指数加权平均的偏差修正( Bias correction in exponentially weighted averages) 实际上时,图中所示的划线并不是绿色的线,而是下图紫色的线条: 可以注意到紫色曲线的起点较低。 计算移动平均数的时候,初始化${
阅读全文 »
发表于 2018-09-15 20:24阅读:1620评论:0推荐:0
摘要:指数加权平均数( Exponentially weighted averages) 指数加权平均,在统计中也叫做指数加权移动平均。 下面列举出表示伦敦一年之中的温度: 如果要计算趋势的话,也就是温度的局部平均值,或者说移动平均值: 先使:,然后计算: ${v_1} = 0.9{
阅读全文 »
发表于 2018-09-14 21:19阅读:5014评论:0推荐:0
摘要:理解 mini-batch 梯度下降法( Understanding mini-batch gradient descent) 使用 batch 梯度下降法时,每次迭代你都需要历遍整个训练集,可以预期每次迭代成本都会下降,所以如果成本函数J是迭代次数的一个函数,它应该会随着每次迭代而减少,如果在某次
阅读全文 »
发表于 2018-09-13 21:57阅读:545评论:0推荐:0
摘要:Mini-batch 梯度下降( Mini-batch gradient descent) 机器学习的应用是一个高度依赖经验的过程,伴随着大量迭代的过程,你需要训练诸多模型,才能找到合适的那一个,优化算法能够帮助你快速训练模型。 向量化能够让你有效地对所有m个样本进行计算,允许你处理整个训练集。 我
阅读全文 »
发表于 2018-09-12 22:35阅读:701评论:0推荐:0
摘要:梯度检验应用的注意事项 ( Gradient Checking Implementation Notes) 首先,不要在训练中使用梯度检验,它只用于调试。我的意思是,计算所有 i值的 是一个非常漫长的计算过程,为了实施梯度下降,你必须使用 W和bbac
阅读全文 »
发表于 2018-09-12 22:10阅读:523评论:0推荐:0
摘要:梯度检验( Gradient checking) 梯度检验有助于发现 backprop 实施过程中的 bug。假设你的网络中的参数:,为了执行梯度检验,首先要做的就是,把所有参数转换成一个巨大的
阅读全文 »
发表于 2018-09-12 08:59阅读:1045评论:0推荐:0
摘要:梯度的数值逼近( Numerical approximation of gradients) 在实施 backprop 时,有一个测试叫做梯度检验,它的作用是确保 backprop 正确实施。因为有时候,你虽然写下了这些方程式,却不能 100%确定执行 backprop 的所有细节都是正确的。为了逐
阅读全文 »
发表于 2018-09-10 22:21阅读:2719评论:0推荐:0
摘要:神经网络的权重初始化( Weight Initialization for Deep NetworksVanishing / Exploding gradients) 理想的权重矩阵既不会增长过快,也不会太快下降到 0,从而训练出一个权重或梯度不会增长或消失过快的深度网络。 有一个神经元的情况 :
阅读全文 »
发表于 2018-09-10 08:58阅读:633评论:0推荐:0
摘要:梯度消失/梯度爆炸( Vanishing / Exploding gradients) 训练神经网络,尤其是深度神经所面临的一个问题就是梯度消失或梯度爆炸,也就是你训练神经网络的时候,导数或坡度有时会变得非常大,或者非常小,甚至于以指数方式变小,这加大了训练的难度。 假设你正在训练这样一个极深的神经
阅读全文 »
发表于 2018-09-09 21:52阅读:913评论:0推荐:0
摘要:归一化输入( Normalizing inputs) 训练神经网络,其中一个加速训练的方法就是归一化输入。 归一化的两个步骤: 零均值 归一化方差 第一步是零均值化, ,它是一个向量,x等于每个训
阅读全文 »
发表于 2018-09-09 17:13阅读:647评论:0推荐:0
摘要:其他正则化方法( Other regularization methods) 除了 L2正则化和随机失活( dropout)正则化,还有几种方法可以减少神经网络中的过拟合: 数据扩增 通过数据扩增可以解决过拟合问题,但是数据扩增需要付出的代价高,所以可以将原图水平翻转、随意裁剪等等手段来增加数据,对
阅读全文 »
发表于 2018-09-08 21:32阅读:726评论:0推荐:0
摘要:理解 dropout( Understanding Dropout) 从单个神经元入手,如图,这个单元的工作就是输入并生成一些有意义的输出。 通过 dropout,该单元的输入几乎被消除,有时这两个单元会被删除,有时会删除其它单元,就是说,用紫色圈起来的这个单元,它不能依靠任何特征,因为特征都有可能
阅读全文 »
发表于 2018-09-02 23:01阅读:2754评论:0推荐:0
摘要:dropout 正则化( Dropout Regularization) 除了L2正则化,还有一个非常实用的正则化方法——Dropout( 随机失活): 假设你在训练上图这样的神经网络,它存在过拟合,这就是 dropout 所要处理的,我们复制这个神经网络, dropout 会遍历网络的每一层,并设
阅读全文 »
发表于 2018-09-02 22:57阅读:967评论:0推荐:0
摘要:为什么正则化有利于预防过拟合呢?( Why regularization reduces overfitting?) 左图是高偏差,右图是高方差,中间是 Just Right。 我们假设下面的网络是一个过拟合的网络,我们添加正则项,可以避免数据权值矩阵过大,这就是弗罗贝尼乌斯范数。那么为什么弗罗贝尼
阅读全文 »
发表于 2018-09-02 22:28阅读:724评论:0推荐:0
摘要:正则化( Regularization) 深度学习可能存在过拟合问题——高方差,有两个解决方法: 一个是正则化; 另一个是准备更多的数据;这是非常可靠的方法,但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高。 逻辑回归中的正则化 目标:$\mathop {\min J}\limit
阅读全文 »
发表于 2018-09-01 16:09阅读:94评论:0推荐:0
摘要:wget命令用来从指定的URL下载文件。wget非常稳定,它在带宽很窄的情况下和不稳定网络中有很强的适应性,如果是由于网络的原因下载失败,wget会不断的尝试,直到整个文件下载完毕。如果是服务器打断下载过程,它会再次联到服务器上从停止的地方继续下载。这对从那些限定了链接时间的服务器上下载大文件非常有
阅读全文 »
发表于 2018-09-01 16:05阅读:351评论:0推荐:0
摘要:netstat 命令用于显示各种网络相关信息,如网络连接,路由表,接口状态 (Interface Statistics),masquerade 连接,多播成员 (Multicast Memberships) 等等。 列出所有端口 (包括监听和未监听的): 列出所有 tcp 端口: 列出所有有监听的服
阅读全文 »
发表于 2018-09-01 15:50阅读:2004评论:0推荐:0
摘要:查找包含特定字符串的进程并杀死 方法一 把ps的查询结果通过管道给grep查找包含特定字符串的进程。管道符“|”用来隔开两个命令,管道符左边命令的输出会作为管道符右边命令的输入。 杀死进程: 方法二 使用pgrep,一看到pgrep首先会想到什么?没错,grep!pgrep的p表明了这个命令是专门用
阅读全文 »
发表于 2018-09-01 14:56阅读:114评论:0推荐:0
摘要:环境变量PATH 什么是环境变量呢?简要的说,就是指定一个目录,运行软件的时候,相关的程序将会按照该目录寻找相关文件。 在linux系统下,如果你下载并安装了应用程序,很有可能在键入它的名称时出现“command not found”的提示内容。如果每次都到安装目标文件夹内,找到可执行文件来进行操作
阅读全文 »
发表于 2018-09-01 14:46阅读:107评论:0推荐:0
摘要:更改权限:chmod 在linux中为了方便更改这些权限,linux使用数字去代替rwx, 具体规则为 ‘r’ 等于4, ‘w’ 等于2, ‘x’ 等于1, ‘-‘ 等于0。 举个例子: ‘-rwxrwx—’ 用数字表示就是 ‘770’, 具体是这样来的: ‘rwx’ = 4+2+1=7; ‘rwx
阅读全文 »
发表于 2018-09-01 14:02阅读:374评论:0推荐:0
摘要:locate 功能: 类似于whereis, 也是通过查找预先生成的文件列表库来告诉用户要查找的文件在哪里。 语法: locate[文件名称] find 语法 : find [路径] [选项] 选项: ‘-atime +n/-n’ : 访问或执行时间大于/小于n天的文件。 ‘-ctime +n/-n
阅读全文 »
发表于 2018-09-01 12:51阅读:370评论:0推荐:0
摘要:查看系统进程 使用命令:ps 其实在top命令就可以查看那些进程在运行,但是不容易看,当然还有专门显示系统进程的命令: PID :进程的id,这个id很有用,在linux中内核管理进程就得靠pid来识别和管理某一个程,比如我想终止某一个进程,则用 ‘kill 进程的pid 有时并不能杀掉,则需要加一
阅读全文 »
发表于 2018-09-01 12:50阅读:285评论:0推荐:0
摘要:查看内存使用状况 使用命令:free 注意: 我们还可以加-m 或者-g选项分别以M或G为单位打印内存使用状况:
阅读全文 »
发表于 2018-09-01 12:45阅读:1049评论:0推荐:0
摘要:查看当前系统的负载 使用命令:w 第一行从左面开始显示的信息依次为:时间,系统运行时间,登录用户数,平均负载。 第二行开始以及下面所有的行,告诉我们的信息是,当前登录的都有哪些用户,以及他们是从哪里登录的等等。 load average:后面的三个数值: 第一个数值表示1分钟内系统的平均负载值; 第
阅读全文 »
发表于 2018-09-01 12:40阅读:165评论:0推荐:0
摘要:linux下查看发行版本 方法一: 方法二: 其它关于系统信息的查看指令 查看内核版本 方法一: 方法二: uname命令的详细使用可以使用如下方法查看与理解: 查看系统位数 方法一: 查看long类型占的字节数在64bit系统中应该是8bytes,而在32bit系统中应该是4bytes,注意不要使
阅读全文 »
发表于 2018-09-01 12:37阅读:1239评论:0推荐:0
摘要:查看CPU信息 以上输出项的含义如下:
阅读全文 »