摘要: 主要为第十周内容:大规模机器学习、案例、总结 (一)随机梯度下降法 如果有一个大规模的训练集,普通的批量梯度下降法需要计算整个训练集的误差的平方和,如果学习方法需要迭代20次,这已经是非常大的计算代价。 首先,需要确定大规模的训练集是否有必要。当我们确实需要一个大规模的训练集,可以尝试用随机梯度下降法来替代批量梯度下降法。 在随机梯度下降法中,定义代价函数一个单一训练实例的代价: 随机梯度下降... 阅读全文
posted @ 2015-11-30 21:41 汪刚 阅读(272) 评论(0) 推荐(0) 编辑
摘要: 主要为第九周内容:异常检测、推荐系统 (一)异常检测(DENSITY ESTIMATION) 核密度估计(kernel density estimation)是在概率论中用来估计未知的密度函数,属于非参数检验方法之一。密度估计是指给定数据集 x(1),x(2),..,x(m),我们假使数据集是正常的,我们希望知道新的数据 x(test)是不是异常的,即这个测试数据不属于该组数据的几率如何。我们所构... 阅读全文
posted @ 2015-11-30 09:36 汪刚 阅读(1013) 评论(0) 推荐(0) 编辑
摘要: 主要为第八周内容:聚类(Clustering)、降维聚类是非监督学习中的重要的一类算法。相比之前监督学习中的有标签数据,非监督学习中的是无标签数据。非监督学习的任务是对这些无标签数据根据特征找到内在结构。聚类就是通过算法把数据分成不同的簇(点集),k均值算法是其中一种重要的聚类算法。 K均值算法 K... 阅读全文
posted @ 2015-10-30 15:46 汪刚 阅读(252) 评论(0) 推荐(0) 编辑
摘要: 主要第七周的内容:支持向量机 可以参考JerryLeed 的支持向量机SVM系列博客http://www.cnblogs.com/jerrylead 以及 pluskid的支持向量机系列博客http://blog.pluskid.org/?page_id=683 优化目标 判定边界 核函数 总结 阅读全文
posted @ 2015-10-29 22:31 汪刚 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 主要为第六周内容机器学习应用建议以及系统设计。 下一步做什么 当训练好一个模型,预测未知数据,发现结果不如人意,该如何提高呢? 1.获得更多的训练实例 2.尝试减少特征的数量 3.尝试获得更多的特征 4.尝试增加二项式特征 5.尝试减少归一化程度λ 6.尝试增加归一化程度λ 先不要急着尝试这些方法,而是通过一些机器学习诊断方法来判断现在算法是什么情况,哪些方法是可以提高算法的有效性,如何选择更有意... 阅读全文
posted @ 2015-10-28 16:15 汪刚 阅读(445) 评论(0) 推荐(0) 编辑
摘要: 质数又称素数。指在一个大于1的自然数中,除了1和此整数自身外,没法被其他自然数整除的数。怎么判断n以内的哪些数是质数呢? 埃拉托斯特尼筛法厄拉多塞是一位古希腊数学家,他在寻找素数时,采用了一种与众不同的方法:先将2-N的各数放入表中,然后在2的上面画一个圆圈,然后划去2的其他倍数;第一个既未画圈又没... 阅读全文
posted @ 2015-10-22 15:37 汪刚 阅读(3953) 评论(0) 推荐(1) 编辑
摘要: Floyd判圈算法 leetcode 上 编号为202 的happy number 问题,有点意思。happy number 的定义为: A happy number is a number defined by the following process: Starting with any p... 阅读全文
posted @ 2015-10-15 22:58 汪刚 阅读(478) 评论(0) 推荐(0) 编辑
摘要: 今天在leetcode看到一个题目:Majority Element,题目内容是: Given an array of size n, find the majority element. The majority element is the element that appears more t... 阅读全文
posted @ 2015-10-15 22:20 汪刚 阅读(1507) 评论(0) 推荐(0) 编辑
摘要: 主要为第四周、第五周课程内容:神经网络神经网络模型引入 之前学习的线性回归还是逻辑回归都有个相同缺点就是:特征太多会导致计算量太大。如100个变量,来构建一个非线性模型。即使只采用两两特征组合,都会有接近5000个组成的特征。这对于普通的线性回归和逻辑回归计算特征量太大了。因此,神经网路孕育而生。神... 阅读全文
posted @ 2015-10-14 16:33 汪刚 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 主要为第三周课程内容:逻辑回归与正则化 逻辑回归(Logistic Regression) 一、逻辑回归模型引入分类问题是指尝试预测的是结果是否属于某一个类。维基百科的定义为:根据已知训练区提供的样本,通过计算选择特征参数,建立判别函数以对样本进行的分类(有监督分类)。统计学习方法中定义:在监督学习... 阅读全文
posted @ 2015-10-14 15:34 汪刚 阅读(730) 评论(0) 推荐(0) 编辑