Fork me on GitHub

随笔分类 -  机器学习

摘要:model.eval()和with torch.no_grad()的区别在PyTorch中进行validation时,会使用model.eval()切换到测试模式,在该模式下, 主要用于通知dropout层和batchnorm层在train和val模式间切换在train模式下,dropout网络层会 阅读全文
posted @ 2021-06-18 14:33 stardsd 阅读(5732) 评论(0) 推荐(2) 编辑
摘要:NNI (Neural Network Intelligence) 是一个轻量但强大的工具包,帮助用户自动的进行 特征工程,神经网络架构搜索, 超参调优以及模型压缩。 NNI 管理自动机器学习 (AutoML) 的 Experiment, 调度运行 由调优算法生成的 Trial 任务来找到最好的神经 阅读全文
posted @ 2021-06-17 10:54 stardsd 阅读(1358) 评论(0) 推荐(1) 编辑
摘要:YOLO9000 VOC数据集可以检测20种对象,但实际上对象的种类非常多,只是缺少相应的用于对象检测的训练样本。YOLO2尝试利用ImageNet非常大量的分类样本,联合COCO的对象检测数据集一起训练,使得YOLO2即使没有学过很多对象的检测样本,也能检测出这些对象。 基本的思路是,如果是检测样 阅读全文
posted @ 2021-04-26 16:52 stardsd 阅读(1001) 评论(0) 推荐(0) 编辑
摘要:前言yolov5提供了一种超参数优化的方法–Hyperparameter Evolution,即超参数进化。超参数进化是一种利用 遗传算法(GA) 进行超参数优化的方法,我们可以通过该方法选择更加合适自己的超参数。 提供的默认参数也是通过在COCO数据集上使用超参数进化得来的。由于超参数进化会耗费大 阅读全文
posted @ 2021-04-15 15:08 stardsd 阅读(4209) 评论(0) 推荐(1) 编辑
摘要:torch.optim torch.optim是一个实现了各种优化算法的库。大部分常用的方法得到支持,并且接口具备足够的通用性,使得未来能够集成更加复杂的方法。 如何使用optimizer 为了使用torch.optim,你需要构建一个optimizer对象。这个对象能够保持当前参数状态并基于计算得 阅读全文
posted @ 2021-04-07 15:05 stardsd 阅读(2970) 评论(0) 推荐(0) 编辑
摘要:机器学习之课程式学习(Curriculum Learning) 在2009年的国际顶级机器学习会议ICML上,以机器学习领军人物Bengio为首的研究团队首次提出了课程式学习(Curriculum Learning)的概念,引起了机器学习领域的极大轰动。其后数十年间,众多关于课程式学习、自步学习(S 阅读全文
posted @ 2021-04-07 14:29 stardsd 阅读(3247) 评论(0) 推荐(0) 编辑
摘要:比Momentum更快:揭开NAG的真面目 作为一个调参狗,每天用着深度学习框架提供的各种优化算法如Momentum、AdaDelta、Adam等,却对其中的原理不甚清楚,这样和一条咸鱼有什么分别!(误)但是我又懒得花太多时间去看每个优化算法的原始论文,幸运的是,网上的大神早就已经帮人总结好了:《A 阅读全文
posted @ 2021-04-07 10:42 stardsd 阅读(3269) 评论(0) 推荐(0) 编辑
摘要:相对熵(relative entropy)就是KL散度(Kullback–Leibler divergence),用于衡量两个概率分布之间的差异。 一句话总结的话:KL散度可以被用于计算代价,而在特定情况下最小化KL散度等价于最小化交叉熵。而交叉熵的运算更简单,所以用交叉熵来当做代价。 如何衡量两个 阅读全文
posted @ 2021-03-15 14:49 stardsd 阅读(4590) 评论(0) 推荐(0) 编辑
摘要:Numpy: Boolean Indexing import numpy as np A = np.array([4, 7, 3, 4, 2, 8]) print(A == 4) [ True False False True False False] Every element of the Ar 阅读全文
posted @ 2021-03-11 17:44 stardsd 阅读(685) 评论(0) 推荐(0) 编辑
摘要:一文看尽12种Dropout及其变体 本文转载自:AI公园 作者:Axel Thevenot 编译:ronghuaiyang 导读 深入了解DNNs,CNNs以及RNNs中的Dropout来进行正则化,蒙特卡洛不确定性和模型压缩的方法。 动机 在深度机器学习中训练一个模型的主要挑战之一是协同适应。这 阅读全文
posted @ 2021-02-15 16:02 stardsd 阅读(4203) 评论(0) 推荐(0) 编辑
摘要:首先,给出官方文档的链接: https://pytorch.org/docs/stable/generated/torch.gather.html?highlight=gather#torch.gather 然后,我用白话翻译一下官方文档。 gather,顾名思义,聚集、集合。有点像军训的时候,排队 阅读全文
posted @ 2021-02-15 14:43 stardsd 阅读(3434) 评论(0) 推荐(0) 编辑
摘要:作者:桂。 时间:2017-05-31 21:14:56 链接:http://www.cnblogs.com/xingshansi/p/6925955.html 前言 VQ(Vector Quantization)是一个常用的压缩技术,本文主要回顾: 1)VQ原理 2)基于VQ的说话人识别(SR,s 阅读全文
posted @ 2021-01-28 15:17 stardsd 阅读(1349) 评论(0) 推荐(0) 编辑
摘要:原文链接:https://zh.wikipedia.org/wiki/%E6%9C%AC%E4%BD%93_(%E4%BF%A1%E6%81%AF%E7%A7%91%E5%AD%A6) 本体 (信息科学) 简单的本体示例:关于动物的概念及其相互关系所构成的语义网络 在计算机科学与信息科学领域,理论上 阅读全文
posted @ 2020-11-17 11:06 stardsd 阅读(943) 评论(0) 推荐(0) 编辑
摘要:Training Region-based Object Detectors with Online Hard Example Mining 00 Astract 摘要主要讲了四点: (1) 训练过程需要进行参数的空间搜索 (2) 简单样本与难分辨样本之间的类别不平衡是亟需解决的问题 (3) 自动地 阅读全文
posted @ 2020-04-02 14:23 stardsd 阅读(543) 评论(0) 推荐(0) 编辑
摘要:转载,原文链接:https://www.cnblogs.com/guoyaohua/p/8724433.html Batch Normalization作为最近一年来DL的重要成果,已经广泛被证明其有效性和重要性。虽然有些细节处理还解释不清其理论原因,但是实践证明好用才是真的好,别忘了DL从Hint 阅读全文
posted @ 2020-03-19 15:39 stardsd 阅读(424) 评论(0) 推荐(0) 编辑
摘要:前言 对于使用机器学习解决的大多数常见问题,通常有多种可用的模型。每个模型都有自己的独特之处,并随因素变化而表现不同每个模型在“验证/测试”数据集上来评估性能,性能衡量使用各种统计量如准确度(accuracy),精度(precision),召回率(recall)等。选择的统计量通常针对特定应用场景和 阅读全文
posted @ 2020-01-11 20:25 stardsd 阅读(5023) 评论(0) 推荐(0) 编辑
摘要:在机器学习、深度学习中使用的优化算法除了常见的梯度下降,还有 Adadelta,Adagrad,RMSProp 等几种优化器,都是什么呢,又该怎么选择呢? 在 Sebastian Ruder 的这篇论文中给出了常用优化器的比较,今天来学习一下:https://arxiv.org/pdf/1609.0 阅读全文
posted @ 2020-01-06 19:06 stardsd 阅读(3223) 评论(0) 推荐(0) 编辑
摘要:在求取有约束条件的优化问题时,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最优值;如果含有不等式约束,可以应用KKT条件去求取。当然,这两个方法求得的结果只是必要条件,只有当是凸函数的情况下,才能 阅读全文
posted @ 2019-12-15 16:15 stardsd 阅读(678) 评论(0) 推荐(0) 编辑
摘要:原文链接:https://www.cnblogs.com/heaad/archive/2011/03/08/1977733.html 在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什 阅读全文
posted @ 2019-12-06 17:01 stardsd 阅读(589) 评论(0) 推荐(1) 编辑
摘要:29 November 2019 14:48 GRU is a popular variant of LSTM which replaces the forget gate and the input gate with only one update gate GRU achieves the s 阅读全文
posted @ 2019-11-29 15:17 stardsd 阅读(7404) 评论(0) 推荐(0) 编辑