随笔分类 -  Machine Learning

摘要:我是在差分隐私下看到的,新解决方案的可用性肯定小于原有解决方案的可用性,也就是说信息的后续处理只会降低所拥有的信息量。 那么如果这么说的话为什么还要做特征工程呢,这是因为该不等式有一个巨大的前提就是数据处理方法无比的强大,比如很多的样本要分类,我们做特征提取后,SVM效果很好 ,但是如果用DNN之类 阅读全文
posted @ 2017-11-02 11:48 加拿大小哥哥 编辑
该文被密码保护。
posted @ 2016-12-22 21:43 加拿大小哥哥 编辑
该文被密码保护。
posted @ 2016-06-23 12:28 加拿大小哥哥 编辑
该文被密码保护。
posted @ 2016-06-23 11:55 加拿大小哥哥 编辑
该文被密码保护。
posted @ 2016-06-23 10:50 加拿大小哥哥 编辑
该文被密码保护。
posted @ 2016-06-21 22:05 加拿大小哥哥 编辑
该文被密码保护。
posted @ 2016-06-21 20:35 加拿大小哥哥 编辑
摘要:1.往往假设特征之间独立同分布,那么似然函数往往是连城形式,直接求骗到不好搞,根据log可以把连乘变为连加。 2.另外概率值是小数,多个小数相乘容易赵成浮点数下溢,去log变为连加可以避免这个问题。 若果原始似然函数中没有连加和,那么去对术后没有log(a+b)的形式,此时可以用GD,否则用EM,村 阅读全文
posted @ 2016-06-20 11:27 加拿大小哥哥 编辑
摘要:一、理论 1.1 多重共线性 所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。 完全共线性的情况并不多见,一 阅读全文
posted @ 2016-06-17 09:52 加拿大小哥哥 编辑
摘要:1、求解方程。 并不是所有的方程都有求根公式,或者求根公式很复杂,导致求解困难。利用牛顿法,可以迭代求解。 原理是利用泰勒公式,在x0处展开,且展开到一阶,即f(x) = f(x0)+(x-x0)f'(x0) 求解方程f(x)=0,即f(x0)+(x-x0)*f'(x0)=0,求解x = x1=x0 阅读全文
posted @ 2016-06-16 11:46 加拿大小哥哥 编辑
摘要:最大似然估计:现在已经拿到了很多个样本(你的数据集中所有因变量),这些样本值已经实现,最大似然估计就是去找到那个(组)参数估计值,使得前面已经实现的样本值发生概率最大。因为你手头上的样本已经实现了,其发生概率最大才符合逻辑。这时是求样本所有观测的联合概率最大化,是个连乘积,只要取对数,就变成了线性加 阅读全文
posted @ 2016-06-16 11:14 加拿大小哥哥 编辑
摘要:判断学习速率是否合适?每步都下降即可。这篇先不整理吧... 这节学习的是逻辑回归(Logistic Regression),也算进入了比较正统的机器学习算法。啥叫正统呢?我概念里面机器学习算法一般是这样一个步骤: 1)对于一个问题,我们用数学语言来描述它,然后建立一个模型,例如回归模型或者分类模型等 阅读全文
posted @ 2016-06-13 21:45 加拿大小哥哥 编辑
摘要:一、引言 我们谈到了用 k-means 进行聚类的方法,这次我们来说一下另一个很流行的算法:Gaussian Mixture Model (GMM)。事实上,GMM 和 k-means 很像,不过 GMM 是学习出一些概率密度函数来(所以 GMM 除了用在 clustering 上之外,还经常被用于 阅读全文
posted @ 2016-06-04 17:49 加拿大小哥哥 编辑
摘要:就实现过程来讲,两者是一样的,都是最小二乘法的改进,对于病态矩阵的正则化,只不过分析的角度不一样,前者是解决机器学习中过拟合问题,机器学习一般是监督学习,是从学习角度来说的,后者是数学家搞的,是为了解决病态矩阵的问题。 阅读全文
posted @ 2016-05-23 21:12 加拿大小哥哥 编辑
该文被密码保护。
posted @ 2016-05-11 21:22 加拿大小哥哥 编辑
摘要:一、概述 在日常生活中或者科学试验中,很多的事情发生都具有一定的随机性,即最终产生的结果是随机发生的,我们不清楚这些结果是否服从什么规律,我们所拥有的只有一些实验样本,在这种情况下,我们如何根据现拥有的东西对结果产生一个合理的推断呢?最大熵方法就是解决这种问题的一个方法。 最大熵原理是有E.T.Ja 阅读全文
posted @ 2016-05-08 17:43 加拿大小哥哥 编辑
摘要:求解多目标规划的方法大体上有以下几种: 一种是化多为少的方法 , 即把多目标化为比较容易求解的单目标或双目标,如主要目标法、线性加权法、理想点法等; 另一种叫分层序列法,即把目标按其重要性给出一个序列,每次都在前一目标最优解集内求下一个目标最优解,直到求出共同的最优解。 对多目标的线性规划除以上方法 阅读全文
posted @ 2016-05-05 10:31 加拿大小哥哥 编辑
摘要:多目标粒子群(MOPSO)算法是由CarlosA. Coello Coello等在2004年提出来的,详细参考1。目的是将原来只能用在单目标上的粒子群算法(PSO)应用于多目标上。我们知道原来的单目标PSO流程很简单: -->初始化粒子位置(一般都是随机生成均匀分布) -->计算适应度值(一般是目标 阅读全文
posted @ 2016-05-05 00:24 加拿大小哥哥 编辑
摘要:1. 问题 这节我们请出最后的有关成分分析和回归的神器PLSR。PLSR感觉已经把成分分析和回归发挥到极致了,下面主要介绍其思想而非完整的教程。让我们回顾一下最早的Linear Regression的缺点:如果样例数m相比特征数n少(m<n)或者特征间线性相关时,由于(n*n矩阵)的秩小于特征个数( 阅读全文
posted @ 2016-04-27 19:04 加拿大小哥哥 编辑
摘要:1 问题 模型选择问题:对于一个学习问题,可以有多种模型选择。比如要拟合一组样本点,可以使用线性回归,也可以用多项式回归。那么使用哪种模型好呢(能够在偏差和方差之间达到平衡最优)? 还有一类参数选择问题:如果我们想使用带权值的回归模型,那么怎么选择权重w公式里的参数? 形式化定义:假设可选的模型集合 阅读全文
posted @ 2016-04-27 13:17 加拿大小哥哥 编辑