上一页 1 ··· 22 23 24 25 26 27 28 29 30 ··· 53 下一页

Machine Learning in Action – PCA和SVD

摘要: 降维技术, 首先举的例子觉得很好,因为不知不觉中天天都在做着降维的工作 对于显示器显示一个图片是通过像素点0,1,比如对于分辨率1024×768的显示器,就需要1024×768个像素点的0,1来表示,这里每个像素点都是一维,即是个1024×768维的数据。而其实眼睛真正看到的只是一副二维的图片,这里眼睛其实在不知不觉中做了降维的工作,把1024×768维的数据降到2维 降维的好处,显而易见... 阅读全文
posted @ 2014-10-09 20:53 fxjwind 阅读(1785) 评论(0) 推荐(0) 编辑

Machine Learning in Action -- FP-growth

摘要: 要解决的问题,频繁项集 最暴力的方法,就是遍历所有的项集组合,当然计算量过大 最典型的算法apriori, 算法核心思想,当一个集合不是频繁项集,那么它的超集也一定不是频繁项集 这个结论是很明显的,基于这样的思路,可以大大减少频繁项集的候选项 因为你只要发现一个集合非频繁项集,那么他所有的超集都可以忽略 但apriori算法的问题是,计算每个候选项的出现频率的时候都需要遍... 阅读全文
posted @ 2014-09-28 12:53 fxjwind 阅读(1063) 评论(0) 推荐(0) 编辑

Machine Learning in Action -- 树回归

摘要: 前面介绍线性回归,但实际中,用线性回归去拟合整个数据集是不太现实的,现实中的数据往往不是全局线性的 当然前面也介绍了局部加权线性回归,这种方法有些局限 这里介绍另外一种思路,树回归 基本思路,用决策树将数据集划分成若干个子集,然后再子集上再用线性回归进行拟合 决策树是种贪心算法,最简单典型的决策树算法是ID3 ID3,每次都选取最佳特征来进行划分,并且按照特征的取值来决定划分的个数... 阅读全文
posted @ 2014-09-12 16:57 fxjwind 阅读(1191) 评论(0) 推荐(0) 编辑

Machine Learning in Action -- 回归

摘要: 机器学习问题分为分类和回归问题 回归问题,就是预测连续型数值,而不像分类问题,是预测离散的类别 至于这类问题为何称为回归regression,应该就是约定俗成,你也解释不通 比如为何logistic regression叫逻辑回归,明明解决的是分类问题,而且和逻辑没有半点关系 谈到回归,最简单的就是线性回归 用直线去拟合数据点, 我们通常用平方误差来作为... 阅读全文
posted @ 2014-09-05 16:42 fxjwind 阅读(836) 评论(0) 推荐(0) 编辑

Kafka 0.8 配置参数解析

摘要: http://kafka.apache.org/documentation.html#configuration Broker Configs 4个必填参数, broker.id Each broker is uniquely identified by a non-negative integer id broker唯一标识,broker可以在不同的host或por... 阅读全文
posted @ 2014-09-04 16:14 fxjwind 阅读(3739) 评论(0) 推荐(0) 编辑

统计学习方法笔记 -- 隐马尔可夫模型

摘要: 参考,隐马尔可夫模型(HMM)攻略 首先看看确定的状态序列,这种状态序列中状态的变化是确定的,比如 红绿灯,一定是绿灯->红灯->黄灯,这样的状态序列 当然也有些不确定状态序列,比如 天气,今天是晴天,你不能确定明天也一定是晴天或雨天 于是我们用概率来表示这种不确定性,称为马尔可夫过程 (Markov Process),马尔可夫过程的阶数表示当前状态依赖于过去几个状态,出于... 阅读全文
posted @ 2014-09-01 20:47 fxjwind 阅读(2407) 评论(0) 推荐(0) 编辑

Machine Learning in Action -- AdaBoost

摘要: 初始的想法就是,结合不同的分类算法来给出综合的结果,会比较准确一些 称为ensemble methods or meta-algorithms,集成方法或元算法 集成方法有很多种,可以是不同算法之间的,也可以是同一个算法但不同参数设置之间的,也可以是将数据集分成多分给不同的分类器之间的 总的来说,有3个维度可以进行集成,算法,算法参数和数据集 下面简单介绍两种比较流行的元算法思路, ... 阅读全文
posted @ 2014-08-28 11:09 fxjwind 阅读(1010) 评论(0) 推荐(0) 编辑

统计学习方法笔记 -- Boosting方法

摘要: AdaBoost算法 基本思想是,对于一个复杂的问题,单独用一个分类算法判断比较困难,那么我们就用一组分类器来进行综合判断,得到结果,“三个臭皮匠顶一个诸葛亮” 专业的说法, 强可学习(strongly learnable),存在一个多项式算法可以学习,并且准确率很高 弱可学习(weakly learnable),存在一个多项式算法可以学习,但准确率略高于随机猜测 并且可以证明强可学习... 阅读全文
posted @ 2014-08-26 16:11 fxjwind 阅读(1227) 评论(0) 推荐(0) 编辑

Andrew Ng机器学习公开课笔记–Reinforcement Learning and Control

摘要: 网易公开课,第16课 notes,12 前面的supervised learning,对于一个指定的x可以明确告诉你,正确的y是什么 但某些sequential decision making问题,比如下棋或直升机自动驾驶 无法确切知道,下一步怎么样是正确的,因为这是一个连续和序列化的决策,比如直到最终直升机crash或下棋输了,你才知道之前的选择是不好的,但中间那么多步决策,到底... 阅读全文
posted @ 2014-08-21 16:55 fxjwind 阅读(1951) 评论(0) 推荐(0) 编辑

Matplotlib for Python Developers

摘要: 这个教程也很不错,http://reverland.org/python/2012/09/07/matplotlib-tutorial/ 也可以参考官网的Gallery,http://matplotlib.org/gallery.html 做数据分析,首先是要熟悉和理解数据,所以掌握一个趁手的可视化工具是非常重要的,否则对数据连个基本的感性认识都没有,如何进行下一步的design Ge... 阅读全文
posted @ 2014-08-19 20:43 fxjwind 阅读(4039) 评论(0) 推荐(0) 编辑
上一页 1 ··· 22 23 24 25 26 27 28 29 30 ··· 53 下一页