摘要:         差不多一年前的这个时候,去了阿里巴巴(杭州总部)的阿里云事业群实习,走上了大数据算法工程师的道路,这个博客也就没有更新了。后来又去了腾讯MIG事业群实习,工作内容同样是大数据分析相关。         一路走来,产生了非常多的思路看法。以前的很多技术观点现在看来是很不成熟的。     阅读全文
posted @ 2016-03-14 11:02 空山悟 阅读(192) 评论(0) 推荐(0) 编辑

2015年1月12日

摘要: 前言 对于如何发现一个数据集中的频繁项集,前文讲解的经典 Apriori 算法能够做到。 然而,对于每个潜在的频繁项,它都要检索一遍数据集,这是比较低效的。在实际的大数据应用中,这么做就更不好了。 本文将介绍一种专门检索频繁项集的新算法 - FP-growth 算法。 它只会扫描数据集两次,能循序挖 阅读全文
posted @ 2015-01-12 12:08 空山悟 阅读(710) 评论(0) 推荐(0) 编辑

2015年1月9日

摘要: 前言 想必大家都听过数据挖掘领域那个经典的故事 - "啤酒与尿布" 的故事。 那么,具体是怎么从海量销售信息中挖掘出啤酒和尿布之间的关系呢? 这就是关联分析所要完成的任务了。 本文将讲解关联分析领域中最为经典的Apriori算法,并给出具体的代码实现。 关联分析领域的一些概念 1. 频繁项集: 数据 阅读全文
posted @ 2015-01-09 16:25 空山悟 阅读(632) 评论(1) 推荐(0) 编辑

2015年1月6日

摘要: 前言 在前面的文章中,涉及到的机器学习算法均为监督学习算法。 所谓监督学习,就是有训练过程的学习。再确切点,就是有 "分类标签集" 的学习。 现在开始,将进入到非监督学习领域。从经典的聚类问题展开讨论。所谓聚类,就是事先并不知道具体分类方案的分类 (允许知道分类个数)。 本文将介绍一个最为经典的聚类 阅读全文
posted @ 2015-01-06 15:42 空山悟 阅读(1281) 评论(0) 推荐(0) 编辑

2015年1月5日

摘要: 前言 前文讨论的回归算法都是全局且针对线性问题的回归,即使是其中的局部加权线性回归法,也有其弊端(具体请参考前文) 采用全局模型会导致模型非常的臃肿,因为需要计算所有的样本点,而且现实生活中很多样本都有大量的特征信息。 另一方面,实际生活中更多的问题都是非线性问题。 针对这些问题,有了树回归系列算法 阅读全文
posted @ 2015-01-05 16:08 空山悟 阅读(744) 评论(0) 推荐(0) 编辑

2015年1月4日

摘要: 前言 本文将系统的介绍机器学习中监督学习的回归部分,系统的讲解如何利用回归理论知识来预测出一个分类的连续值。 显然,与监督学习中的分类部分相比,它有很鲜明的特点:输出为连续值,而不仅仅是标称类型的分类结果。 基本线性回归解决方案 - 最小二乘法 “给出一堆散点,求出其回归方程。" -> 对于这个问题 阅读全文
posted @ 2015-01-04 22:19 空山悟 阅读(292) 评论(0) 推荐(0) 编辑

2015年1月2日

摘要: 前言 在前面的文章中,讨论了一些分类算法。然后,有一点一直忽视了,就是非均衡的分类问题。 分均衡分类有两种情形 情形一:正例和反例数量相差非常大。 比如,分析信用卡信息集里面的正常样本和诈骗样本。正常样本固然比诈骗样本要多的多了。 情形二:分类正确/错误的代价不同。 比如,分析病人的体检数据,我们肯 阅读全文
posted @ 2015-01-02 23:03 空山悟 阅读(525) 评论(0) 推荐(0) 编辑
摘要: 前言 有人认为 AdaBoost 是最好的监督学习的方式。 某种程度上因为它是元算法,也就是说它会是几种分类器的组合。这就好比对于一个问题能够咨询多个 "专家" 的意见了。 组合的方式有多种,可能是不同分类算法的分类器,可能是同一算法在不同设置下的集成,还可以是数据集在不同部分分配给不同分类器之后的 阅读全文
posted @ 2015-01-02 15:18 空山悟 阅读(474) 评论(0) 推荐(0) 编辑

2014年12月31日

摘要: 前言 支持向量机,也即SVM,号称分类算法,甚至机器学习界老大哥。其理论优美,发展相对完善,是非常受到推崇的算法。 本文将讲解的SVM基于一种最流行的实现 - 序列最小优化,也即SMO。 另外还将讲解将SVM扩展到非线性可分的数据集上的大致方法。 预备术语 1. 分割超平面:就是决策边界 2. 间隔 阅读全文
posted @ 2014-12-31 15:31 空山悟 阅读(3703) 评论(0) 推荐(0) 编辑

2014年12月30日

摘要: 前言 本文将介绍机器学习分类算法中的Logistic回归分类算法并给出伪代码,Python代码实现。 (说明:从本文开始,将接触到最优化算法相关的学习。旨在将这些最优化的算法用于训练出一个非线性的函数,以用于分类。) 算法原理 首先要提到的概念是回归。 对于回归这个概念,在以后的文章会有系统而深入的 阅读全文
posted @ 2014-12-30 11:48 空山悟 阅读(2100) 评论(0) 推荐(0) 编辑

导航