随笔分类 -  machine learning

摘要:联邦学习大火,主要是解决数据孤岛问题,即如何在符合数据隐私的基础上,实现多方数据不出本地,但是却能联合训练一个共有大模型的目的,对于需要中心的纵向联邦学习,是需要中心先下发公钥,而后期会出现中心能够完全掌握整个模型的情况。那么在更严格情况,AB都互不信任,C放在哪都不合适。 1 准备部分 这里以线性 阅读全文
posted @ 2020-10-15 12:01 仙守 阅读(1463) 评论(2) 推荐(0) 编辑
摘要:介绍下EM算法和GMM模型,先简单介绍GMM的物理意义,然后给出最直接的迭代过程;然后再介绍EM。 1 高斯混合模型 高斯分布,是统计学中的模型,其输出值表示当前输入数据样本(一维标量,多维向量)的概率。 1.1 多元高斯分布 如高斯分布-笔记所述,多元高斯函数公式为: $$p({\bf x})=\ 阅读全文
posted @ 2018-11-18 11:14 仙守 阅读(1057) 评论(0) 推荐(0) 编辑
摘要:回顾发现,李航的《统计学习方法》有些章节还没看完,为了记录,特意再水一文。 ####0 - logistic分布 如《统计学习方法》书上,设X是连续随机变量,X服从logistic分布是指X具有以下分布函数和密度函数: \(F(x) = P(X \leq x)=\frac{1}{1+e^{-(x-\ 阅读全文
posted @ 2018-10-11 16:37 仙守 阅读(390) 评论(0) 推荐(0) 编辑
摘要:1 - kd Tree KD树是一种对K维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。KD树其实就是二叉树,表现为对K维空间的一个划分,构造kd树相当于不断的用垂直于坐标轴的超平面将k维空间切分,构成一系列的k维超矩形区域,即kd树就是二叉树在高维上的扩展。kd树的每个节点最后对应于一 阅读全文
posted @ 2018-10-11 16:32 仙守 阅读(270) 评论(0) 推荐(0) 编辑
摘要:###1 - 背景 KNN:k近邻,表示基于k个最近的邻居的一种机器学习方法。该方法原理简单,构造方便。且是一个非参数化模型。 KNN是一个“懒学习”方法,也就是其本身没有训练过程。只有在对测试集进行结果预测的时候才会产生计算。KNN在训练阶段,只是简单的将训练集放入内存而已。该模型可以看成是对当前 阅读全文
posted @ 2018-10-11 16:29 仙守 阅读(351) 评论(0) 推荐(0) 编辑
摘要:####4 - MDS MDS全称"Multidimensional Scaling",多维缩放。其主要思想就是给定一个原始空间的,原始样本两两之间的距离矩阵;期望能在新空间中找到一个新的样本特征矩阵,使得其新样本两两之间的距离矩阵与原始的距离矩阵相等。因为dd,所以完成了降维的任 阅读全文
posted @ 2018-10-11 16:26 仙守 阅读(356) 评论(0) 推荐(0) 编辑
摘要:####1 - 线性降维 样本在高维情形下会出现数据样本稀疏(因为样本不是均匀分布在每个维度表示的空间中),距离计算困难(欧式距离也不如人想象的那么有效),可视化困难,容易过拟合等问题。所以不论是机器学习,还是人类理解角度,高维都是个不喜欢的话题(当然对于低维样本线性不可分而上升到高维线性可分的情形 阅读全文
posted @ 2018-10-11 16:22 仙守 阅读(661) 评论(0) 推荐(0) 编辑
摘要:###1 - 加法模型 加法模型,就是通过训练集不断的得到不同的分类器(回归),然后将这些分类器组合成一个新的分类器的过程。 假设有N个样本,且我们的加法模型如下: f(x)=m=1Mβmb(x;Ym) 其中x为自变量,即样本;$\cal Y_m 阅读全文
posted @ 2018-10-11 16:19 仙守 阅读(276) 评论(0) 推荐(0) 编辑
摘要:###1 -单变量高斯分布 单变量高斯分布概率密度函数定义为: (1.1)p(x)=12πσexp{12(xμσ)2} 式中μ为随机变量x的期望,$\sigma^2 阅读全文
posted @ 2018-10-11 16:15 仙守 阅读(4607) 评论(0) 推荐(1) 编辑
摘要:###0 - 背景 贝叶斯是个好东西(频率学派的不这么看),好多模型都可以从贝叶斯角度来解释,而且贝叶斯决策理论也是作为最优分类,给其他模型做错误上限什么的参照的。对于分类来说,在所有相关概率都已知的情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。然而贝叶斯又分朴素贝叶斯、半 阅读全文
posted @ 2018-10-11 16:13 仙守 阅读(514) 评论(0) 推荐(0) 编辑
摘要:###1 - 背景 决策树:是基于树结构的一种机器学习方法。其训练方法决定了它是一种有监督学习方法,且和KNN一样是一种非参数化模型。且当类数较多时,该方法具有一定的优势[1]。最流行的决策树是将空间拆分成超矩形,超矩形的边与轴平行。常用的算法有:CHAID、 CART、ID3、C4.5、 Ques 阅读全文
posted @ 2018-10-11 16:10 仙守 阅读(992) 评论(0) 推荐(0) 编辑
摘要:1 目的 SVM推导是从讨论最优超平面开始的,即为了得到一个能够划分不同超平面的面,即公式1: \beginwTx+b=0 \tag{1} \end 这个公式怎么来的,其实就是基于2维推导过来的,当二维图像时,也就是熟悉的x,y坐标系。我们将一条线的函数公式定义为Ax+By+C=0,其法向量为( 阅读全文
posted @ 2018-10-11 16:07 仙守 阅读(309) 评论(0) 推荐(0) 编辑
摘要:0. 背景 评估(或者说验证)聚类结果就如同聚类本身一样困难。通常的方法有内部评估和外部评估这两种: 内部评估的方法:通过一个单一的量化得分来评估算法好坏;该类型的方法 外部评估的方法:通过将聚类结果与已经有“ground truth”分类进行对比。要么通过人类进行手动评估,要么通过一些指标在特定的 阅读全文
posted @ 2018-03-16 17:27 仙守 阅读(955) 评论(0) 推荐(0) 编辑
摘要:0. 背景 谱聚类在2007年前后十分流行,因为它可以快速的通过标准的线性代数库来实现,且十分优于传统的聚类算法,如k-mean等。 至于在任何介绍谱聚类的算法原理上,随便翻开一个博客,都会有较为详细的介绍,如这里。当然这些都来自《A Tutorial on Spectral Clustering》 阅读全文
posted @ 2018-03-16 09:42 仙守 阅读(1559) 评论(0) 推荐(0) 编辑
摘要:0. 聚类步骤 为了完成一个聚类任务,必须遵循以下步骤: 特征选择:合适的选择特征,尽可能多的包含任务关心的信息,使得信息冗余减少和最小化是主要目标; 近邻测度:用于定量测量两个特征向量如何“相似”或“不相似”,这里需要注意让选中的特征都具有相同的近邻性,不能让某个或某些特征占支配地位; 聚类准则: 阅读全文
posted @ 2018-01-22 11:05 仙守 阅读(596) 评论(0) 推荐(0) 编辑
摘要:##0.背景 机器学习通常评判一个算法的好坏,是基于不同场景下采用不同的指标的。通常来说,有: 准确度;PR (Precision Recall); F测量; [ ] MCC; [ ] BM; [ ] MK; [ ] Gini系数; ROC; [ ] Z score; AUC ; [ ] Cost 阅读全文
posted @ 2017-11-22 18:09 仙守 阅读(5947) 评论(0) 推荐(0) 编辑
摘要:最近需要做图片中文本识别的项目,然后为了快速验证模型,所以找到了mscoco-text数据集,网站1上是这么说的: 官网是这么说的: 然而,我下下来之后: 1 - 先导入: 2 - 其中key为’imgToAnns’是图片序号对应的注释序号,却是这样的: 然后,其中具体的图片中文字并不是完全标记出来 阅读全文
posted @ 2017-06-14 22:00 仙守 阅读(509) 评论(0) 推荐(0) 编辑
摘要:《 Neural Networks Tricks of the Trade.2nd》这本书是收录了1998-2012年在NN上面的一些技巧、原理、算法性文章,对于初学者或者是正在学习NN的来说是很受用的。全书一共有30篇论文,本书期望里面的文章随着时间能成为经典,不过正如bengio(超级大神)说的 阅读全文
posted @ 2015-09-10 16:36 仙守 阅读(2797) 评论(0) 推荐(0) 编辑
摘要:来自书籍《Building Machine Learning Systems with Python 》 前两章觉得还是挺简单的,干货没有。下面来第三章,这一章主要是介绍文本处理方面,而且没有涉及到最新的word2vector方法等等(DL在NLP上的应用),本章节还是介绍词袋啊什么的,DL在NLP 阅读全文
posted @ 2015-07-25 16:21 仙守 阅读(228) 评论(0) 推荐(0) 编辑
摘要:来自书籍《Building Machine Learning Systems with Python 》 本书主要在于如何实际的教用户来学习ml,其中简单的介绍了ml的原理,重点还是放在使用python和numpy、scipy、scikit-learn等包的使用上。通过简单的实例来讲解,还算是有趣。 阅读全文
posted @ 2015-07-24 17:30 仙守 阅读(263) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示