摘要: 开篇:首先这本书的名字很霸气,全书内容讲的是R语言在机器学习上面的应用,一些基本的分类算法(tree,SVM,NB),回归算法,智能优化算法,维度约减等,机器学习领域已经有很多成熟的R工具箱,毕竟这个领域被统计学称霸了十多年,常用R工具箱都可以在这里面找到http://www.rdatamining.com/docs,http://www.mloss.org/software/本书第一张介绍了R以及相应包的安装,同时拿了UFO数据集进行练手,数据集以及源码网上都有的首先加载数据集(博客园的插入代码不支持R语言!!!!)1 ufo good.rows length(which(!good.r.. 阅读全文
posted @ 2013-09-18 13:49 kobeshow 阅读(790) 评论(0) 推荐(0) 编辑
摘要: 无意间在部门的svn看到以前老员工的Hive优化文档,看看了,写的挺详细的,结合hadoop In action(陆) 一书的内容在这里做个汇总1,列裁剪 在读数据的时候,只读取查询中需要用到的列,而忽略其他列。例如,对于查询:1 SELECT a,b FROM T WHERE e 对,,。所以商品表的hdfs读只会是一次。问题5:先join生成临时表,在union all还是写嵌套查询,这是个问题。比如以下例子: 1 Select * 2 From 3 ( select * 4 From t1 5 Uion all 6 select * 7 From t4... 阅读全文
posted @ 2013-09-18 10:54 kobeshow 阅读(651) 评论(0) 推荐(0) 编辑