09 2013 档案

摘要: 阅读全文
posted @ 2013-09-30 17:42 kobeshow 阅读(147) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2013-09-30 10:15 kobeshow 阅读(114) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2013-09-30 09:25 kobeshow 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2013-09-29 18:49 kobeshow 阅读(178) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2013-09-29 18:46 kobeshow 阅读(184) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2013-09-29 18:18 kobeshow 阅读(149) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2013-09-29 18:12 kobeshow 阅读(126) 评论(0) 推荐(0) 编辑
摘要:Adaboost也是一种原理简单,但很实用的有监督机器学习算法,它是daptive boosting的简称。说到boosting算法,就不得提一提bagging算法,他们两个都是把一些弱分类器组合起来来进行分类的方法,统称为集成方法(ensemble method),类似于投资,“不把鸡蛋放在一个篮子”,虽然每个弱分类器分类的不那么准确,但是如果把多个弱分类器组合起来可以得到相当不错的结果,另外要说的是集成方法还可以组合不同的分类器,而Adaboost和boosting算法的每个弱分类器的类型都一样的。他们两个不同的地方是:boosting的每个弱分类器组合起来的权重不一样,本节的Adabo. 阅读全文
posted @ 2013-09-29 17:11 kobeshow 阅读(495) 评论(0) 推荐(0) 编辑
摘要:做机器学习的一定对支持向量机(support vector machine-SVM)颇为熟悉,因为在深度学习出现之前,SVM一直霸占着机器学习老大哥的位子。他的理论很优美,各种变种改进版本也很多,比如latent-SVM, structural-SVM等。这节先来看看SVM的理论吧,在(图一)中A图表示有两类的数据集,图B,C,D都提供了一个线性分类器来对数据进行分类?但是哪个效果好一些?(图一) 可能对这个数据集来说,三个的分类器都一样足够好了吧,但是其实不然,这个只是训练集,现实测试的样本分布可能会比较散一些,各种可能都有,为了应对这种情况,我们要做的就是尽可能的使得线性分类器离两... 阅读全文
posted @ 2013-09-27 11:14 kobeshow 阅读(1600) 评论(0) 推荐(0) 编辑
摘要:本章是上一章邮件过滤技术的延伸,上一章的内容主要是过滤掉垃圾邮件,而这里要讲的是对那些正常的邮件是否可以加入个性化元素,由于每个用户关心的主题并非一样(有人喜欢技术类型的邮件或者购物促销方便的内容邮件等)。如何把邮件按照用户的关注程度分类,把重要邮件优先让用户浏览, 无疑会大大的增加用户的体验。 Tapestry作为最早的个性化邮箱,它通过分析用户阅读邮件的行为习惯对邮件进行排序,提供个性化服务。这个想结合最近的做的项目(游戏推荐)一起讲,跳过这一章看机器学习里面的回归问题。 阅读全文
posted @ 2013-09-27 10:20 kobeshow 阅读(368) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2013-09-27 08:56 kobeshow 阅读(104) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2013-09-27 08:48 kobeshow 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2013-09-27 08:47 kobeshow 阅读(224) 评论(0) 推荐(1) 编辑
摘要:【菜鸟读财报,如何从上市公司财报中挖情报?】❶财务数据重点看主营业务收入而不是利润。❷收入、利益要按不同业务类型分别加以分析。❸现金周转情况、折旧情况、年终拥有现金数量等指标同样值得关注。❹纵向、横向比较。❺特殊收益和支出应分析其利弊。 阅读全文
posted @ 2013-09-27 08:44 kobeshow 阅读(321) 评论(0) 推荐(0) 编辑
摘要:【数据分析注意点】1、要注意每种统计分析方法的适用范围;2、使用不同的数据分析方法对同一问题进行解释,来互相验证结论的真伪,多次尝试;3、结果要使用通俗易懂的语言或图表进行描述;4、需要耐心和细致,不能出现任何疏漏,别一个老鼠害一锅汤;5、高级数据分析不一定是最好的,简单有效才是最好 阅读全文
posted @ 2013-09-27 08:36 kobeshow 阅读(245) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2013-09-26 15:07 kobeshow 阅读(142) 评论(0) 推荐(0) 编辑
摘要:从这节算是开始进入“正规”的机器学习了吧,之所以“正规”因为它开始要建立价值函数(cost function),接着优化价值函数求出权重,然后测试验证。这整套的流程是机器学习必经环节。今天要学习的话题是逻辑回归,逻辑回归也是一种有监督学习方法(supervised machine learning)。逻辑回归一般用来做预测,也可以用来做分类,预测是某个类别^.^!线性回归想比大家都不陌生了,y=kx+b,给定一堆数据点,拟合出k和b的值就行了,下次给定X时,就可以计算出y,这就是回归。而逻辑回归跟这个有点区别,它是一种非线性函数,拟合功能颇为强大,而且它是连续函数,可以对其求导,这点很重要,. 阅读全文
posted @ 2013-09-26 10:00 kobeshow 阅读(772) 评论(0) 推荐(0) 编辑
摘要:一数据类型R的数据类型包括数值型、字符型、逻辑型(布尔)、复数型和原生型,同时R有好多存储数据的对象类型,包括标量、向量、矩阵、数组、数据框和列表,如下图所示下图(图的版权神马的归原作者跟原出版社所有,赶紧避嫌,呵呵)1、向量操作1 a y y 3 [,1] [,2] 4 [1,] 1 6 5 [2,] 2 7 6 [3,] 3 8 7 [4,] 4 9 8 [5,] 5 10 9 > y y11 [,1] [,2]12 [1,] 1 213 [2,] 3 414 [3,] 5 ... 阅读全文
posted @ 2013-09-25 21:26 kobeshow 阅读(645) 评论(0) 推荐(0) 编辑
摘要:这几年数据挖掘的火热,也越来越多的人把R作为数据挖掘的一个辅助工具,据国际性组织kkguter统计有60%的人在挖掘过程中用到R工具,可见这个工具是多么的流行,对于数据统计、筛选以及画图绝对是神器。尽管之前在学校的时候也“断断续续”的用过它画画图,算算多次实验结果的mean、sd,也用过它来参加过Kaggle上面的比赛,但是都是拿来就用(off-the-shelf),没有系统的记录R的学习过程,借着R in Action一书来温习一下R的艺术编程。 网上有好多关于R的资料,当然官网上的是最全,最系统的,除了官网外,http://tryr.codeschool.com/,http://www.. 阅读全文
posted @ 2013-09-25 12:47 kobeshow 阅读(219) 评论(0) 推荐(0) 编辑
摘要:贝叶斯决策一直很有争议,今年是贝叶斯250周年,历经沉浮,今天它的应用又开始逐渐活跃,有兴趣的可以看看斯坦福Brad Efron大师对其的反思,两篇文章:“Bayes'Theorem in the 21st Century”和“A250-YEAR ARGUMENT:BELIEF, BEHAVIOR, AND THE BOOTSTRAP”。俺就不参合这事了,下面来看看朴素贝叶斯分类器。 有时我们想知道给定一个样本时,它属于每个类别的概率是多少,即P(Ci|X),Ci表示类别,X表示测试样本,有了概率后我们可以选择最大的概率的类别。要求这个概率要用经典贝叶斯公式,如(公式一)所示:(公式一 阅读全文
posted @ 2013-09-24 19:39 kobeshow 阅读(379) 评论(0) 推荐(0) 编辑
摘要:决策树也是有监督机器学习方法。 电影《无耻混蛋》里有一幕游戏,在德军小酒馆里有几个人在玩20问题游戏,游戏规则是一个设迷者在纸牌中抽出一个目标(可以是人,也可以是物),而猜谜者可以提问题,设迷者只能回答是或者不是,在几个问题(最多二十个问题)之后,猜谜者通过逐步缩小范围就准确的找到了答案。这就类似于决策树的工作原理。(图一)是一个判断邮件类别的工作方式,可以看出判别方法很简单,基本都是阈值判断,关键是如何构建决策树,也就是如何训练一个决策树。(图一)构建决策树的伪代码如下:Check if every item in the dataset is in the same class: If.. 阅读全文
posted @ 2013-09-24 18:15 kobeshow 阅读(563) 评论(0) 推荐(0) 编辑
摘要:机器学习分两大类,有监督学习(supervised learning)和无监督学习(unsupervised learning)。有监督学习又可分两类:分类(classification.)和回归(regression),分类的任务就是把一个样本划为某个已知类别,每个样本的类别信息在训练时需要给定,比如人脸识别、行为识别、目标检测等都属于分类。回归的任务则是预测一个数值,比如给定房屋市场的数据(面积,位置等样本信息)来预测房价走势。而无监督学习也可以成两类:聚类(clustering)和密度估计(density estimation),聚类则是把一堆数据聚成弱干组,没有类别信息;密度估计则是. 阅读全文
posted @ 2013-09-24 16:29 kobeshow 阅读(591) 评论(0) 推荐(0) 编辑
摘要:现在貌似In Action很流行,各种技术抽象成工程商的Action,可以避开繁琐的内部原理,这本书从实践出发,通俗易懂的解释那些常用的机器学习算法,类似跟《集体智慧编程》。这本书中文出版后,我也立马买了一本读读,全书分别介绍了分类,回归,无监督学习以及降维等基本算法,最后还讲了一下Big Data in Machine Learning,利用MRJob写了SVM算法。代码也很规范,另外作者的代码网址https://github.com/pbharrin/machinelearninginaction。 关于本书的算法笔记,我转载了水木统计群里一位群友的笔记http://blog.csdn.. 阅读全文
posted @ 2013-09-24 15:48 kobeshow 阅读(568) 评论(0) 推荐(0) 编辑
摘要:本章主要介绍了分类算法里面的一种最基本的分类器:朴素贝叶斯算法(NB),算法性能正如英文缩写的一样,很NB,尤其在垃圾邮件检测领域,关于贝叶斯的网上资料也很多,这里推荐那篇刘未鹏写的http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/,作者深入浅出的概述了贝叶斯背后的思想跟应用领域,关于其理论方面可以参考斯坦福大学NG的machine learning cs299的讲义,关于代码实现可以参考一些开源的包或者自己动手写(之前,闲来无事写了一个基于MRjob的MapReduce版本),关于成熟开源工具包可以参考scikit,ora. 阅读全文
posted @ 2013-09-23 16:06 kobeshow 阅读(606) 评论(0) 推荐(1) 编辑
摘要:本章主要讲了对数据的一些基本探索,常见的six numbers,方差,均值等1 > data.file heights.weights heights summary(heights)5 Min. 1st Qu. Median Mean 3rd Qu. Max. 6 54.26 63.51 66.32 66.37 69.17 79.00 上面是six numbers:最小值,第一个四分位数,中位数(注意跟均值的区别),均值,第三个四分位数,最大值中位数跟均值的区别:中位数 就是指数据排序后处于中间的那个数,而均值就是算术平均值,在R中可以直接... 阅读全文
posted @ 2013-09-22 17:00 kobeshow 阅读(603) 评论(0) 推荐(1) 编辑
摘要:开篇:首先这本书的名字很霸气,全书内容讲的是R语言在机器学习上面的应用,一些基本的分类算法(tree,SVM,NB),回归算法,智能优化算法,维度约减等,机器学习领域已经有很多成熟的R工具箱,毕竟这个领域被统计学称霸了十多年,常用R工具箱都可以在这里面找到http://www.rdatamining.com/docs,http://www.mloss.org/software/本书第一张介绍了R以及相应包的安装,同时拿了UFO数据集进行练手,数据集以及源码网上都有的首先加载数据集(博客园的插入代码不支持R语言!!!!)1 ufo good.rows length(which(!good.r.. 阅读全文
posted @ 2013-09-18 13:49 kobeshow 阅读(795) 评论(0) 推荐(0) 编辑
摘要:无意间在部门的svn看到以前老员工的Hive优化文档,看看了,写的挺详细的,结合hadoop In action(陆) 一书的内容在这里做个汇总1,列裁剪 在读数据的时候,只读取查询中需要用到的列,而忽略其他列。例如,对于查询:1 SELECT a,b FROM T WHERE e 对,,。所以商品表的hdfs读只会是一次。问题5:先join生成临时表,在union all还是写嵌套查询,这是个问题。比如以下例子: 1 Select * 2 From 3 ( select * 4 From t1 5 Uion all 6 select * 7 From t4... 阅读全文
posted @ 2013-09-18 10:54 kobeshow 阅读(653) 评论(0) 推荐(0) 编辑
摘要:以前在学校用的百度空间忘记了户名跟密码了,里面的200多篇文章都丢了。。。。现在开始在博客园安家了,记录技术生活点滴,开工~首先写machine learning for hackers读书笔记,本书是R语言在machine learning 方向的 action,尽管之前看过这本书的电子版本,但还是想系统的记录学习过程,GO~ 阅读全文
posted @ 2013-09-17 12:29 kobeshow 阅读(162) 评论(0) 推荐(0) 编辑