随笔分类 - 深度学习
摘要:1 自编码器 特征提取是无监督学习中很重要且很基本的一项任务,常见形式是训练一个编码器将原始数据集编码为一个固定长度的向量。自然地,我们对这个编码器的基本要求是:保留原始数据的(尽可能多的)重要信息。 那么我们怎么知道编码向量保留了重要信息呢?一个很自然的想法是这个编码向量应该也要能还原出原始图片出
阅读全文
摘要:提出思路 自编码器最初提出是基于降维的思想,但是当隐层节点比输入节点多时,自编码器就会失去自动学习样本特征的能力,此时就需要对隐层节点进行一定的约束,与降噪自编码器的出发点一样,高维而稀疏的表达是好的,因此提出对隐层节点进行一些稀疏性的限值。稀疏自编码器就是在传统自编码器的基础上通过增加一些稀疏性约
阅读全文
摘要:想要成为一名合格的 AI 工程师,并不是一件简单的事情,需要掌握各种机器学习算法。对于小白来说,入行 AI 还是比较困难的。为了让初学者更好的学习 AI,网络上出现了各种各样的学习资料,也不乏很多 AI 大牛提供免费的授课视频提供帮助。近日,来自佐治亚理工学院的理学硕士 Terence Shin 在
阅读全文
摘要:前言 在任何有监督机器学习项目的模型构建阶段,我们训练模型的目的是从标记的示例中学习所有权重和偏差的最佳值。 如果我们使用相同的标记示例来测试我们的模型,那么这将是一个方法论错误,因为一个只会重复刚刚看到的样本标签的模型将获得完美的分数,但无法预测任何有用的东西 - 未来的数据,这种情况称为过拟合。
阅读全文
摘要:介绍 维基百科上说,“Hyperparameter optimization或tuning是为学习算法选择一组最优的hyperparameters的问题”。 ML工作流中最困难的部分之一是为模型找到最好的超参数。ML模型的性能与超参数直接相关。超参数调优的越好,得到的模型就越好。调优超参数可能是非常
阅读全文
摘要:1.什么是类别不平衡问题 如果不同类别的训练样例数目稍有差别,通常影响不大,但若差别很大,则会对学习过程造成困扰。例如有998个反例,但是正例只有2个,那么学习方法只需要返回一个永远将新样本预测为反例的学习器,就能达到99.8%的精度;然而这样的学习器往往没有价值,因为它不能预测出任何正例。 类别不
阅读全文
摘要:样本 正样本:即属于某一类(一般是所求的那一类)的样本。在本例中是及格的学生。 负样本:即不属于这一类的样本。在本例中是不及格的学生。 y_pred = [0, 0, 0, 0, 0, 0, 1, 1, 1, 1] y_true = [0, 0, 0, 0, 1, 1, 1, 1, 0, 0] 上述
阅读全文
摘要:性能度量 对于分类任务,错误率和精度是最常用的两种性能度量: 错误率:分错样本占样本总数的比例 精度:分对样本占样本总数的比率 错误率(error rate ) $E(f ; D)=\frac{1}{m} \sum \limits _{i=1}^{m} \mathbb{I}\left(f\left(
阅读全文
摘要:论文题目:《Nonlinear Dimensionality Reduction by Locally Linear Embedding 》 发表时间:Science 2000 论文地址:Download tips:原论文:一篇report ,解释的不够清楚,博主查阅众多资料,以及参考交大于剑老师教
阅读全文
摘要:简介 流形学习是一类借鉴了拓扑流形概念的降维方法。流形是在局部与欧式空间同胚的空间,换言之,它在局部具有欧式空间的性质,能用欧式距离来进行距离计算。若低维流形嵌入到高维空间中,则数据样本在高维空间的分布虽然看上去非常复杂,但在局部上仍具有欧式空间的性质,基于流形学习的降维正是这种“邻域保持”的思想。
阅读全文
摘要:问题形式 该问题一般指的是训练集中正负样本数比例相差过大, 举个例子,在极端情况下,在总体为1000的样本,若中有999个样本标记为A类,有1个样本标记为B类。则很明显,A类与B类的样本数偏差极大。一般认为当类别比例超过4:1时,则认为类别不均衡。 其一般会造成以下的一些情况: 类别少的误判惩罚过低
阅读全文
摘要:假设一个$N$个结点的无向图我们用 $G[u][v]=G[v][u]=1$ 表示 $ u$ 到 $ v$ 有连边, 否则 $ G[u][v]=G[v][u]=0 $如果用这个邻接矩阵自乘会得到什么呢模拟矩乘的运算有 $ G^{2}[u][v]=\sum \limits_{i=1}^{n} G[u][
阅读全文
摘要:基本概念 TP、True Positive 真阳性:预测为正,实际为正 FP、False Positive 假阳性:预测为正,实际为负 FN、False Negative 假阴性:预测与负、实际为正 TN、True Negative 真阴性:预测为负、实际为负。 以分类问题为例: $\text {
阅读全文
摘要:t-SNE 算法 1 前言 t-SNE 即 t-distributed stochastic neighbor embedding 是一种用于降维的机器学习算法,在 2008 年由 Laurens van der Maaten 和 Geoffrey Hinton 提出。 t-SNE 是一种非线性降维
阅读全文
摘要:梯度消失、爆炸带来的影响 举个例子,对于一个含有三层隐藏层的简单神经网络来说,当梯度消失发生时,接近于输出层的隐藏层由于其梯度相对正常,所以权值更新时也就相对正常,但是当越靠近输入层时,由于梯度消失现象,会导致靠近输入层的隐藏层权值更新缓慢或者更新停滞。这就导致在训练时,只等价于后面几层的浅层网络的
阅读全文
摘要:self-attention是什么? 一个 self-attention 模块接收 n 个输入,然后返回 n 个输出。自注意力机制让每个输入都会彼此交互(自),然后找到它们应该更加关注的输入(注意力)。自注意力模块的输出是这些交互的聚合和注意力分数。 self-attention模块包括以下步骤:
阅读全文
摘要:简介 本文将对Cora、Citeseer、Pubmed 数据集进行详细介绍 Cora、Citeseer、Pubmed 数据集 来源 图 节点 边 特征 标签(y) Cora “Collective classification in network data,” AI magazine,2008 1
阅读全文
摘要:一 GCN简介 GNN 模型主要研究图节点的表示(Graph Embedding),图边结构预测任务和图的分类问题,后两个任务也是基于 Graph Embedding 展开的。目前论文重点研究网络的可扩展性、动态性、加深网络。 谱卷积有理论支持,但有时候会受到拉普拉斯算子的限制;而空间域卷积更加灵活
阅读全文
摘要:baseline 一个算法被称为 baseline 算法说明这个比目前这个算法还差的已经不能接受了,方法有革命性的创新点可以挖掘,且存在巨大提升空间和超越benchmark的潜力,只是由于发展初期导致性能有限。所以baseline有一个自带的含义就是“性能起点”。在算法优化过程中,一般 versio
阅读全文
摘要:消融实验(Ablation experiment) 消融实验类似于 "控制变量法” 。 假设在某目标检测系统中,使用了A,B,C,取得了不错的效果,但是这个时候你并不知道这不错的效果是由于A,B,C中哪一个起的作用,于是你保留A,B,移除C进行实验来看一下C在整个系统中所起的作用。
阅读全文